論文の概要: IntervenGen: Interventional Data Generation for Robust and Data-Efficient Robot Imitation Learning
- arxiv url: http://arxiv.org/abs/2405.01472v1
- Date: Thu, 2 May 2024 17:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 15:45:41.912386
- Title: IntervenGen: Interventional Data Generation for Robust and Data-Efficient Robot Imitation Learning
- Title(参考訳): IntervenGen:ロバストでデータ効率の良いロボット模倣学習のためのインターベンショナルデータ生成
- Authors: Ryan Hoque, Ajay Mandlekar, Caelan Garrett, Ken Goldberg, Dieter Fox,
- Abstract要約: 分散シフトに対するポリシーロバスト性を高めるための一般的なアプローチは、インタラクティブな模倣学習である。
我々は,大規模な修正介入を自律的に生成できる新しいデータ生成システムであるIntervenGenを提案する。
人的介入が10回しかなく、政策の堅牢性を最大39倍に向上できることを示す。
- 参考スコア(独自算出の注目度): 43.19346528232497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning is a promising paradigm for training robot control policies, but these policies can suffer from distribution shift, where the conditions at evaluation time differ from those in the training data. A popular approach for increasing policy robustness to distribution shift is interactive imitation learning (i.e., DAgger and variants), where a human operator provides corrective interventions during policy rollouts. However, collecting a sufficient amount of interventions to cover the distribution of policy mistakes can be burdensome for human operators. We propose IntervenGen (I-Gen), a novel data generation system that can autonomously produce a large set of corrective interventions with rich coverage of the state space from a small number of human interventions. We apply I-Gen to 4 simulated environments and 1 physical environment with object pose estimation error and show that it can increase policy robustness by up to 39x with only 10 human interventions. Videos and more results are available at https://sites.google.com/view/intervengen2024.
- Abstract(参考訳): 模倣学習はロボット制御ポリシーを訓練する上で有望なパラダイムであるが、これらのポリシーは、トレーニングデータと評価時の条件が異なる分散シフトに悩まされる可能性がある。
分散シフトに対するポリシーロバスト性を高めるための一般的なアプローチは、インタラクティブな模倣学習(DAggerとvariants)である。
しかし、政策ミスの分布を網羅する十分な介入を収集することは、人間のオペレーターにとって負担になる可能性がある。
我々は、少数の人的介入から、州空間を広範囲に網羅した大規模な修正介入を自律的に生成できる新しいデータ生成システムIntervenGen(I-Gen)を提案する。
I-Genをオブジェクトポーズ推定誤差のある4つのシミュレーション環境と1つの物理環境に適用し、10人の介入だけで39倍のロバスト性を向上できることを示す。
ビデオやその他の結果はhttps://sites.google.com/view/intervengen2024.comで公開されている。
関連論文リスト
- Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-25T18:03:50Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Learning Latent Traits for Simulated Cooperative Driving Tasks [10.009803620912777]
我々は,人間の行動や嗜好の観点から,人間のコンパクトな潜在表現を捉えることのできるフレームワークを構築した。
そして、注意を散らす運転行動の1形態をモデル化するための軽量なシミュレーション環境、HMIway-envを構築します。
最終的にこの環境を利用して、ドライバを識別する能力と介入ポリシーの有効性の両方を定量化します。
論文 参考訳(メタデータ) (2022-07-20T02:27:18Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Error-Aware Policy Learning: Zero-Shot Generalization in Partially
Observable Dynamic Environments [18.8481771211768]
新しい環境に適応できる政策を開発することで、このようなシム・トゥ・リアル問題に取り組むための新しいアプローチを紹介します。
私たちのアプローチの鍵は、トレーニング中に観察できない要因の影響を明示的に認識するエラー認識ポリシー(EAP)です。
ヒップトルク補助装置の訓練されたEAPは, 生体力学的特性の異なる異なる人体エージェントに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-03-13T15:36:44Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Offline Learning for Planning: A Summary [0.0]
自律的なエージェントの訓練は、しばしば、環境との高価で安全でない試行錯誤の相互作用を必要とする。
さまざまなタスクを実行するインテリジェントエージェントの記録された経験を含むデータセットは、インターネット上でアクセス可能である。
本稿では,最先端のオフライン学習ベースラインの開発を動機とするアイデアを要約する。
論文 参考訳(メタデータ) (2020-10-05T11:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。