論文の概要: Human-in-the-Loop Imitation Learning using Remote Teleoperation
- arxiv url: http://arxiv.org/abs/2012.06733v1
- Date: Sat, 12 Dec 2020 05:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 05:23:47.782468
- Title: Human-in-the-Loop Imitation Learning using Remote Teleoperation
- Title(参考訳): 遠隔遠隔操作によるループ内模倣学習
- Authors: Ajay Mandlekar, Danfei Xu, Roberto Mart\'in-Mart\'in, Yuke Zhu, Li
Fei-Fei, Silvio Savarese
- Abstract要約: 6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
- 参考スコア(独自算出の注目度): 72.2847988686463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning is a promising paradigm for learning complex robot
manipulation skills by reproducing behavior from human demonstrations. However,
manipulation tasks often contain bottleneck regions that require a sequence of
precise actions to make meaningful progress, such as a robot inserting a pod
into a coffee machine to make coffee. Trained policies can fail in these
regions because small deviations in actions can lead the policy into states not
covered by the demonstrations. Intervention-based policy learning is an
alternative that can address this issue -- it allows human operators to monitor
trained policies and take over control when they encounter failures. In this
paper, we build a data collection system tailored to 6-DoF manipulation
settings, that enables remote human operators to monitor and intervene on
trained policies. We develop a simple and effective algorithm to train the
policy iteratively on new data collected by the system that encourages the
policy to learn how to traverse bottlenecks through the interventions. We
demonstrate that agents trained on data collected by our intervention-based
system and algorithm outperform agents trained on an equivalent number of
samples collected by non-interventional demonstrators, and further show that
our method outperforms multiple state-of-the-art baselines for learning from
the human interventions on a challenging robot threading task and a coffee
making task. Additional results and videos at
https://sites.google.com/stanford.edu/iwr .
- Abstract(参考訳): 模倣学習は、人間のデモから動作を再現することで複雑なロボット操作スキルを学ぶための有望なパラダイムである。
しかしながら、操作タスクには、コーヒーを作るためにポッドをコーヒーマシンに挿入するロボットなど、意味のある進歩を行うための一連の正確なアクションを必要とするボトルネック領域が含まれていることが多い。
訓練された政策は、行動のわずかな偏差が、デモの対象にならない状態に政策を導く可能性があるため、これらの地域では失敗する可能性がある。
インターベンションベースのポリシー学習は、この問題に対処できる代替手段であり、人間のオペレータは、トレーニングされたポリシーを監視し、障害に遭遇した時にコントロールを乗っ取ることができる。
本稿では,遠隔操作者が訓練されたポリシーを監視・介入できる,6-DoF操作設定に適したデータ収集システムを構築する。
我々は,システムによって収集された新たなデータに基づいて政策を反復的に訓練する,シンプルで効果的なアルゴリズムを開発した。
本手法は,介入型システムで収集されたデータに基づいて訓練されたエージェントと,非介入型デモ参加者が収集した等価数のサンプルで訓練されたアルゴリズムよりも優れたエージェントを示し,さらに,挑戦的なロボットスレッディングタスクとコーヒーメーキングタスクにおける人間の介入から学ぶための最先端のベースラインよりも優れることを示す。
さらなる結果とビデオはhttps://sites.google.com/stanford.edu/iwr にある。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - MILES: Making Imitation Learning Easy with Self-Supervision [12.314942459360605]
MILESは完全に自律的で自己管理型のデータ収集パラダイムである。
MILESは,1つの実演と1つの環境リセットから,効率的なポリシー学習を可能にする。
論文 参考訳(メタデータ) (2024-10-25T17:06:50Z) - IntervenGen: Interventional Data Generation for Robust and Data-Efficient Robot Imitation Learning [43.19346528232497]
分散シフトに対するポリシーロバスト性を高めるための一般的なアプローチは、インタラクティブな模倣学習である。
我々は,大規模な修正介入を自律的に生成できる新しいデータ生成システムであるIntervenGenを提案する。
人的介入が10回しかなく、政策の堅牢性を最大39倍に向上できることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:06:19Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II [0.5911087507716211]
本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練することを目的とする。
この結果から,自動カリキュラム学習によって訓練されたエージェントは,最先端の深層強化学習ベースラインより優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-11T21:53:11Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning
Systems [0.8223798883838329]
本研究では,人間同士の相互作用を強化学習ループに組み込む方法について検討する。
その結果,人間同士の相互作用に基づいて学習した報奨信号は,強化学習アルゴリズムの学習速度を加速させることがわかった。
論文 参考訳(メタデータ) (2020-08-30T17:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。