論文の概要: Split the Differences, Pool the Rest: Provably Efficient Multi-Objective Imitation
- arxiv url: http://arxiv.org/abs/2605.12000v2
- Date: Mon, 18 May 2026 14:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.708449
- Title: Split the Differences, Pool the Rest: Provably Efficient Multi-Objective Imitation
- Title(参考訳): 違いを分けて、残りをプールする:多目的模倣を効果的に
- Authors: Ziyad Sheebaelhamd, Luca Viano, Volkan Cevher, Claire Vernade,
- Abstract要約: マルチ出力拡張行動クローン(MA-BC)について紹介する。
MA-BCは、振る舞いの衝突が観測されない状態-動作ペアをプールしながら、専門家データを分離する。
我々は,MA-BCが極小であることを示す,多目的模倣学習のための新しい下位境界を確立する。
- 参考スコア(独自算出の注目度): 49.86232017439639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates multi-objective imitation learning: the problem of recovering policies that lie on the Pareto front given demonstrations from multiple Pareto-optimal experts in a Multi-Objective Markov Decision Process (MOMDP). Standard imitation approaches are ill-equipped for this regime, as naively aggregating conflicting expert trajectories can result in dominated policies. To address this, we introduce Multi-Output Augmented Behavioral Cloning (MA-BC), an algorithm that systematically partitions divergent expert data while pooling state-action pairs where no behavior conflict is observed. Theoretically, we prove that MA-BC converges to Pareto-optimal policies at a faster statistical rate than any learner that considers each expert dataset independently. Furthermore, we establish a novel lower bound for multi-objective imitation learning, demonstrating that MA-BC is minimax optimal. Finally, we empirically validate our algorithm across diverse discrete environments and, guided by our theoretical insights, extend and evaluate MA-BC on a continuous Linear Quadratic Regulator (LQR) control task.
- Abstract(参考訳): 本研究は,多目的マルコフ決定プロセス(MOMDP)において,複数のパレート最適専門家から得られたパレート前面にあるポリシーを復元する問題である多目的模倣学習を考察する。
標準的な模倣アプローチはこの体制に不適当であり、矛盾する専門家の軌道を内在的に集約することは、支配的な政策をもたらす可能性がある。
この問題に対処するために,多出力拡張行動クローン (MA-BC) を導入する。これは,振る舞いの衝突が観測されない状態-動作ペアをプールしながら,異なる専門家データを系統的に分割するアルゴリズムである。
理論的には、MA-BCは、各専門家データセットを独立に考える学習者よりも、より高速な統計率でパレート最適ポリシーに収束することが証明される。
さらに,MA-BCが極小であることを示すために,多目的模倣学習のための新しい下位境界を確立する。
最後に,我々のアルゴリズムを様々な個別環境にわたって実証的に検証し,理論的な洞察に導かれ,連続的な線形二次レギュレータ(LQR)制御タスク上でMA-BCを拡張して評価する。
関連論文リスト
- Multi-Objective Constraint Inference using Inverse reinforcement learning [4.8029888032686445]
多目的制約推論(Multi-Objective Constraint Inference、MOCI)は、異種専門家の軌跡から共有制約と個人の嗜好を共同で抽出するように設計された新しいフレームワークである。
MOCIは、多様で潜在的に矛盾する振る舞いから効果的にモデル化し、学習する。
論文 参考訳(メタデータ) (2026-05-07T21:09:09Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Multimodal Mathematical Reasoning with Diverse Solving Perspective [65.07953438724105]
画像探索ペア毎に複数の多様な解トラジェクトリをキャプチャする新しいデータセットであるMathV-DPを紹介する。
本稿では,Qwen-VLに基づくモデルQwen-VL-DPを提案する。
本手法は,様々な推論の観点からの学習を重視し,正しい解と異なる解を区別する。
論文 参考訳(メタデータ) (2025-07-03T17:07:20Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Pareto Inverse Reinforcement Learning for Diverse Expert Policy Generation [6.876580618014666]
本稿では,識別器の正則化のための報酬距離推定を用いて,逆強化学習(IRL)を適用する。
本稿では,多目的制御タスクにおいて,ParIRLが他のIRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2024-08-22T03:51:39Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Off-Policy Correction For Multi-Agent Reinforcement Learning [9.599347559588216]
マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題のためのフレームワークを提供する。
単エージェントの場合と明らかに類似しているにもかかわらず、マルチエージェント問題はしばしば、理論的な訓練と解析が困難である。
我々は、V-TraceをMARL設定まで拡張する、新しいオンラインアクター批判アルゴリズムMA-Traceを提案する。
論文 参考訳(メタデータ) (2021-11-22T14:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。