論文の概要: MODULI: Unlocking Preference Generalization via Diffusion Models for Offline Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.15501v1
- Date: Wed, 28 Aug 2024 03:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:22:57.320005
- Title: MODULI: Unlocking Preference Generalization via Diffusion Models for Offline Multi-Objective Reinforcement Learning
- Title(参考訳): MODULI:オフライン多目的強化学習のための拡散モデルによる選好一般化の解法
- Authors: Yifu Yuan, Zhenrui Zheng, Zibin Dong, Jianye Hao,
- Abstract要約: 多目的強化学習(MORL)は、複数の対立する目標を同時に最適化する政策の開発を目指している。
オフラインMORLは、事前コンパイルされたデータセットをトレーニングして、デプロイ時の任意の好みに一般化することで、有望なソリューションを提供する。
既存のオフラインMORLアルゴリズムは、OOD選好の一般化が不十分であり、結果として、選好と一致しないポリシーが生じる。
本稿では,様々な嗜好に整合した軌道を生成するためのプランナーとして,嗜好条件付き拡散モデルを用いたMODULIを提案する。
- 参考スコア(独自算出の注目度): 36.24516512865215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-objective Reinforcement Learning (MORL) seeks to develop policies that simultaneously optimize multiple conflicting objectives, but it requires extensive online interactions. Offline MORL provides a promising solution by training on pre-collected datasets to generalize to any preference upon deployment. However, real-world offline datasets are often conservatively and narrowly distributed, failing to comprehensively cover preferences, leading to the emergence of out-of-distribution (OOD) preference areas. Existing offline MORL algorithms exhibit poor generalization to OOD preferences, resulting in policies that do not align with preferences. Leveraging the excellent expressive and generalization capabilities of diffusion models, we propose MODULI (Multi-objective Diffusion Planner with Sliding Guidance), which employs a preference-conditioned diffusion model as a planner to generate trajectories that align with various preferences and derive action for decision-making. To achieve accurate generation, MODULI introduces two return normalization methods under diverse preferences for refining guidance. To further enhance generalization to OOD preferences, MODULI proposes a novel sliding guidance mechanism, which involves training an additional slider adapter to capture the direction of preference changes. Incorporating the slider, it transitions from in-distribution (ID) preferences to generating OOD preferences, patching, and extending the incomplete Pareto front. Extensive experiments on the D4MORL benchmark demonstrate that our algorithm outperforms state-of-the-art Offline MORL baselines, exhibiting excellent generalization to OOD preferences.
- Abstract(参考訳): MORL(Multi-Objective Reinforcement Learning)は、複数の競合する目標を同時に最適化するポリシの開発を目指しているが、広範なオンラインインタラクションが必要である。
オフラインMORLは、事前コンパイルされたデータセットをトレーニングして、デプロイ時の任意の好みに一般化することで、有望なソリューションを提供する。
しかし、現実のオフラインデータセットは保守的かつ狭義に分散されることが多く、優先事項を包括的にカバーできないため、アウト・オブ・ディストリビューション(OOD)の優先領域が出現する。
既存のオフラインMORLアルゴリズムは、OOD選好の一般化が不十分であり、結果として、選好と一致しないポリシーが生じる。
拡散モデルの優れた表現的・一般化能力を活用し,選択条件付き拡散モデルをプランナーとして用い,様々な嗜好に沿った軌道を生成するMODULI(Multi-jective Diffusion Planner with Sliding Guidance)を提案する。
高精度な生成を実現するため,MODULIは2つのリターン正規化手法を導入している。
OOD嗜好の一般化をさらに促進するために、MODULIは、好みの変化の方向を捉えるために追加のスライダアダプタを訓練する新しいスライディング誘導機構を提案する。
スライダを組み込むと、インディストリビューション(ID)の好みからOODの好みの生成、パッチの適用、不完全なParetoフロントの拡張へと移行する。
D4MORLベンチマークの大規模な実験により、我々のアルゴリズムは最先端のオフラインMORLベースラインよりも優れており、OOD選好の優れた一般化が示される。
関連論文リスト
- Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives [0.5120567378386615]
大規模言語モデル(LLM)を協調するハイブリッドアプローチを提案する。
DPO の暗黙的な報酬分解に対する単純な拡張により、任意の補助報酬の集合を最大化するために LLM をチューニングできる。
提案手法であるHybrid Preference Optimization (HPO) は,ユーザの好みと補助的な設計目的の両方に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Scaling Pareto-Efficient Decision Making Via Offline Multi-Objective RL [22.468486569700236]
多目的強化学習(MORL)の目的は、複数の競合対象を同時に最適化するポリシーを学ぶことである。
我々は、オフラインMORLのための新しいデータ駆動型セットアップを提案し、そこで、好みに依存しないポリシーエージェントを学習したい。
PEDAはオフラインのMORLアルゴリズムのファミリーであり、新しい優先順位と条件付きポリシーを通じて決定変換器を構築し拡張する。
論文 参考訳(メタデータ) (2023-04-30T20:15:26Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z) - gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement
Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。
我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文 参考訳(メタデータ) (2022-04-11T10:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。