論文の概要: Model Predictive Adversarial Imitation Learning for Planning from Observation
- arxiv url: http://arxiv.org/abs/2507.21533v1
- Date: Tue, 29 Jul 2025 06:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.766402
- Title: Model Predictive Adversarial Imitation Learning for Planning from Observation
- Title(参考訳): 観測からの計画立案のためのモデル予測逆模倣学習
- Authors: Tyler Han, Yanda Bao, Bhaumik Mehta, Gabriel Guo, Anubhav Vishwakarma, Emily Kang, Sanghun Jung, Rosario Scalise, Jason Zhou, Bryan Xu, Byron Boots,
- Abstract要約: 我々はIRLのポリシーを計画に基づくエージェントに置き換える。
本研究は, 試料効率, 分布外一般化, 堅牢性に関する顕著な改善について検討し, 検討した。
- 参考スコア(独自算出の注目度): 13.427459817316317
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human demonstration data is often ambiguous and incomplete, motivating imitation learning approaches that also exhibit reliable planning behavior. A common paradigm to perform planning-from-demonstration involves learning a reward function via Inverse Reinforcement Learning (IRL) then deploying this reward via Model Predictive Control (MPC). Towards unifying these methods, we derive a replacement of the policy in IRL with a planning-based agent. With connections to Adversarial Imitation Learning, this formulation enables end-to-end interactive learning of planners from observation-only demonstrations. In addition to benefits in interpretability, complexity, and safety, we study and observe significant improvements on sample efficiency, out-of-distribution generalization, and robustness. The study includes evaluations in both simulated control benchmarks and real-world navigation experiments using few-to-single observation-only demonstrations.
- Abstract(参考訳): 人間の実証データは、しばしば曖昧で不完全であり、信頼性の高い計画行動を示す模倣学習アプローチを動機付けている。
実証から計画を実行するための一般的なパラダイムは、逆強化学習(IRL)を介して報酬関数を学習し、モデル予測制御(MPC)を介して報酬をデプロイすることである。
これらの方法を統一するために、IRLのポリシーを計画に基づくエージェントに置き換える。
この定式化によって、観察のみのデモンストレーションからプランナーのエンドツーエンドのインタラクティブな学習が可能になる。
解釈可能性,複雑性,安全性のメリットに加えて,サンプル効率,分布外一般化,ロバストネスの大幅な改善について検討し,検討した。
この研究は、シミュレーションされた制御ベンチマークと、数対1の観測のみの実証による実世界のナビゲーション実験の両方で評価されている。
関連論文リスト
- ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation [2.7405276609125164]
学習力学モデルによるプランニングは、現実世界の長期的操作に対して有望なアプローチを提供する。
ActivePusherは、残差物理モデリングとカーネルベースの不確実性駆動型アクティブラーニングを組み合わせたフレームワークである。
シミュレーションと実世界の両環境でのアプローチを評価し,ベースライン手法と比較してデータ効率と計画成功率を改善することを示す。
論文 参考訳(メタデータ) (2025-06-05T05:28:14Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。