Fugu-MT 論文翻訳(概要): Human-in-the-Loop Imitation Learning using Remote Teleoperation

論文の概要: Human-in-the-Loop Imitation Learning using Remote Teleoperation

arxiv url: http://arxiv.org/abs/2012.06733v1
Date: Sat, 12 Dec 2020 05:30:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-10 05:23:47.782468
Title: Human-in-the-Loop Imitation Learning using Remote Teleoperation
Title（参考訳）: 遠隔遠隔操作によるループ内模倣学習
Authors: Ajay Mandlekar, Danfei Xu, Roberto Mart\'in-Mart\'in, Yuke Zhu, Li Fei-Fei, Silvio Savarese
Abstract要約: 6-DoF操作設定に合わせたデータ収集システムを構築します。システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
参考スコア（独自算出の注目度）: 72.2847988686463
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Imitation Learning is a promising paradigm for learning complex robot manipulation skills by reproducing behavior from human demonstrations. However, manipulation tasks often contain bottleneck regions that require a sequence of precise actions to make meaningful progress, such as a robot inserting a pod into a coffee machine to make coffee. Trained policies can fail in these regions because small deviations in actions can lead the policy into states not covered by the demonstrations. Intervention-based policy learning is an alternative that can address this issue -- it allows human operators to monitor trained policies and take over control when they encounter failures. In this paper, we build a data collection system tailored to 6-DoF manipulation settings, that enables remote human operators to monitor and intervene on trained policies. We develop a simple and effective algorithm to train the policy iteratively on new data collected by the system that encourages the policy to learn how to traverse bottlenecks through the interventions. We demonstrate that agents trained on data collected by our intervention-based system and algorithm outperform agents trained on an equivalent number of samples collected by non-interventional demonstrators, and further show that our method outperforms multiple state-of-the-art baselines for learning from the human interventions on a challenging robot threading task and a coffee making task. Additional results and videos at https://sites.google.com/stanford.edu/iwr .
Abstract（参考訳）: 模倣学習は、人間のデモから動作を再現することで複雑なロボット操作スキルを学ぶための有望なパラダイムである。しかしながら、操作タスクには、コーヒーを作るためにポッドをコーヒーマシンに挿入するロボットなど、意味のある進歩を行うための一連の正確なアクションを必要とするボトルネック領域が含まれていることが多い。訓練された政策は、行動のわずかな偏差が、デモの対象にならない状態に政策を導く可能性があるため、これらの地域では失敗する可能性がある。インターベンションベースのポリシー学習は、この問題に対処できる代替手段であり、人間のオペレータは、トレーニングされたポリシーを監視し、障害に遭遇した時にコントロールを乗っ取ることができる。本稿では,遠隔操作者が訓練されたポリシーを監視・介入できる,6-DoF操作設定に適したデータ収集システムを構築する。我々は,システムによって収集された新たなデータに基づいて政策を反復的に訓練する,シンプルで効果的なアルゴリズムを開発した。本手法は,介入型システムで収集されたデータに基づいて訓練されたエージェントと,非介入型デモ参加者が収集した等価数のサンプルで訓練されたアルゴリズムよりも優れたエージェントを示し,さらに,挑戦的なロボットスレッディングタスクとコーヒーメーキングタスクにおける人間の介入から学ぶための最先端のベースラインよりも優れることを示す。さらなる結果とビデオはhttps://sites.google.com/stanford.edu/iwr にある。

関連論文リスト

Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models [3.076241811701216]
本研究では,拡散政策が人的援助を必要時にのみ積極的に求め,一定の人的監視への依存を減らす方法を提案する。我々は、拡散政策の生成過程を利用して、自律エージェントが展開時にオペレーター支援を要求できる不確実性に基づくメトリクスを計算する。この手法は, 自律的な性能向上のために, 微調整拡散ポリシーの効率的なデータ収集に有効であることを示す。
論文参考訳（メタデータ） (2025-02-26T15:12:29Z)
STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文参考訳（メタデータ） (2024-12-19T18:54:06Z)
Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
MILES: Making Imitation Learning Easy with Self-Supervision [12.314942459360605]
MILESは完全に自律的で自己管理型のデータ収集パラダイムである。 MILESは,1つの実演と1つの環境リセットから,効率的なポリシー学習を可能にする。
論文参考訳（メタデータ） (2024-10-25T17:06:50Z)
IntervenGen: Interventional Data Generation for Robust and Data-Efficient Robot Imitation Learning [43.19346528232497]
分散シフトに対するポリシーロバスト性を高めるための一般的なアプローチは、インタラクティブな模倣学習である。我々は,大規模な修正介入を自律的に生成できる新しいデータ生成システムであるIntervenGenを提案する。人的介入が10回しかなく、政策の堅牢性を最大39倍に向上できることを示す。
論文参考訳（メタデータ） (2024-05-02T17:06:19Z)
Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文参考訳（メタデータ） (2023-10-23T17:50:08Z)
Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文参考訳（メタデータ） (2022-11-09T10:28:40Z)
Self-Supervised Learning of Multi-Object Keypoints for Robotic Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文参考訳（メタデータ） (2022-05-17T13:15:07Z)
Learning to Guide Multiple Heterogeneous Actors from a Single Human Demonstration via Automatic Curriculum Learning in StarCraft II [0.5911087507716211]
本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練することを目的とする。この結果から,自動カリキュラム学習によって訓練されたエージェントは,最先端の深層強化学習ベースラインより優れていることがわかった。
論文参考訳（メタデータ） (2022-05-11T21:53:11Z)
Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文参考訳（メタデータ） (2021-02-24T09:07:52Z)
A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文参考訳（メタデータ） (2020-12-14T22:18:39Z)
Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning Systems [0.8223798883838329]
本研究では,人間同士の相互作用を強化学習ループに組み込む方法について検討する。その結果,人間同士の相互作用に基づいて学習した報奨信号は,強化学習アルゴリズムの学習速度を加速させることがわかった。
論文参考訳（メタデータ） (2020-08-30T17:28:18Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。