論文の概要: Preference Conditioned Multi-Objective Reinforcement Learning: Decomposed, Diversity-Driven Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.07764v1
- Date: Sun, 08 Feb 2026 01:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.789858
- Title: Preference Conditioned Multi-Objective Reinforcement Learning: Decomposed, Diversity-Driven Policy Optimization
- Title(参考訳): 優先条件付き多目的強化学習:分解・多様性駆動型政策最適化
- Authors: Tanmay Ambadkar, Sourav Panda, Shreyash Kale, Jonathan Dodge, Abhinav Verma,
- Abstract要約: 多目的強化学習は、複数の、しばしば矛盾する目標のバランスをとる政策を学ぼうとする。
PPOベースのフレームワークである$D3PO$を導入し、これらの問題に直接対処するために、多目的ポリシー最適化を再編成する。
D3PO$は、分解された最適化パイプラインを通じてオブジェクトごとの学習信号を保存し、安定化後にのみ好みを統合する。
- 参考スコア(独自算出の注目度): 2.595968385299781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-objective reinforcement learning (MORL) seeks to learn policies that balance multiple, often conflicting objectives. Although a single preference-conditioned policy is the most flexible and scalable solution, existing approaches remain brittle in practice, frequently failing to recover complete Pareto fronts. We show that this failure stems from two structural issues in current methods: destructive gradient interference caused by premature scalarization and representational collapse across the preference space. We introduce $D^3PO$, a PPO-based framework that reorganizes multi-objective policy optimization to address these issues directly. $D^3PO$ preserves per-objective learning signals through a decomposed optimization pipeline and integrates preferences only after stabilization, enabling reliable credit assignment. In addition, a scaled diversity regularizer enforces sensitivity of policy behavior to preference changes, preventing collapse. Across standard MORL benchmarks, including high-dimensional and many-objective control tasks, $D^3PO$ consistently discovers broader and higher-quality Pareto fronts than prior single- and multi-policy methods, matching or exceeding state-of-the-art hypervolume and expected utility while using a single deployable policy.
- Abstract(参考訳): 多目的強化学習(MORL)は、複数の、しばしば矛盾する目標のバランスをとる政策を学習しようと試みている。
単一の優先条件付きポリシーが最も柔軟でスケーラブルなソリューションであるが、既存のアプローチは実際には不安定であり、パレートフロントの完全回復に失敗することが多い。
この故障は, 早期のスカラー化による破壊的勾配干渉と, 選好空間における表現的崩壊という2つの構造的問題に起因している。
PPOベースのフレームワークである$D^3PO$を導入し、これらの問題に直接対処するために、多目的ポリシー最適化を再編成する。
D^3PO$は、分解された最適化パイプラインを通じてオブジェクトごとの学習信号を保存し、安定化後にのみ好みを統合することで、信頼できる信用代入を可能にする。
さらに、スケールした多様性正規化器は、政策行動の嗜好の変化に対する感受性を強制し、崩壊を防ぐ。
高次元および多目的制御タスクを含む標準的なMORLベンチマーク全体において、$D^3PO$は、単一のデプロイ可能なポリシを使用しながら、従来の単一およびマルチポリティメソッドよりも広く高品質なParetoフロントを常に発見する。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Robust Offline Reinforcement Learning with Linearly Structured f-Divergence Regularization [11.739526562075339]
ロバスト正規化マルコフ決定過程 (RRMDP) は、値関数の遷移力学に正規化を加えることで、ダイナミクスシフトに頑健なポリシーを学ぶために提案される。
本稿では,リニア関数近似を用いたロバスト正規化ペシミスティック値反復法 (R2PVI) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Conflict-Averse Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning [13.245000585002858]
多くの実世界の応用において、強化学習(RL)エージェントは、複数の目的を考慮し、安全ガイドラインに従うべきである。
制約付き多目的勾配集約アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoGAMO)を提案する。
論文 参考訳(メタデータ) (2024-03-01T04:57:13Z) - Policy-regularized Offline Multi-objective Reinforcement Learning [11.58560880898882]
我々は、単一目的のオフラインRL問題に対して広く適用されたオフラインポリシー規則化手法を、多目的の設定に拡張する。
本研究では,1) 行動選好の近似による選好非一貫性の実証をフィルタリングすること,2) 政策表現性の高い正規化手法を採用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2024-01-04T12:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。