論文の概要: Eliciting Compatible Demonstrations for Multi-Human Imitation Learning
- arxiv url: http://arxiv.org/abs/2210.08073v1
- Date: Fri, 14 Oct 2022 19:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 21:16:29.902544
- Title: Eliciting Compatible Demonstrations for Multi-Human Imitation Learning
- Title(参考訳): 多人数模倣学習のためのコンパチブル・デモの抽出
- Authors: Kanishk Gandhi, Siddharth Karamcheti, Madeline Liao, Dorsa Sadigh
- Abstract要約: 人間による実演からの模倣学習は、ロボット操作の学習ポリシーに対する強力なアプローチである。
自然の人間の行動は、タスクを示すのに最適な方法がいくつかあるため、多くの異種性を持っている。
このミスマッチは、インタラクティブな模倣学習の課題であり、ユーザのシーケンスは、新しい、おそらく矛盾するデモを反復的に収集することによって、ポリシーを改善する。
我々は、ポストホックフィルタリングにより互換性のないデモを識別し、新しいユーザから互換性のないデモを積極的に引き出すために互換性対策を適用することができることを示す。
- 参考スコア(独自算出の注目度): 16.11830547863391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning from human-provided demonstrations is a strong approach
for learning policies for robot manipulation. While the ideal dataset for
imitation learning is homogenous and low-variance -- reflecting a single,
optimal method for performing a task -- natural human behavior has a great deal
of heterogeneity, with several optimal ways to demonstrate a task. This
multimodality is inconsequential to human users, with task variations
manifesting as subconscious choices; for example, reaching down, then across to
grasp an object, versus reaching across, then down. Yet, this mismatch presents
a problem for interactive imitation learning, where sequences of users improve
on a policy by iteratively collecting new, possibly conflicting demonstrations.
To combat this problem of demonstrator incompatibility, this work designs an
approach for 1) measuring the compatibility of a new demonstration given a base
policy, and 2) actively eliciting more compatible demonstrations from new
users. Across two simulation tasks requiring long-horizon, dexterous
manipulation and a real-world "food plating" task with a Franka Emika Panda
arm, we show that we can both identify incompatible demonstrations via post-hoc
filtering, and apply our compatibility measure to actively elicit compatible
demonstrations from new users, leading to improved task success rates across
simulated and real environments.
- Abstract(参考訳): 人間による実演からの模倣学習は、ロボット操作の学習ポリシーに対する強力なアプローチである。
模倣学習のための理想的なデータセットは均質かつ低分散であり、タスクを実行するための単一の最適な方法を反映している。
このマルチモーダル性は、人間のユーザにとって不適切であり、タスクのバリエーションは、例えば、下手、横手、オブジェクトの把握、横手、下手など、意識以下の選択として表される。
しかし、このミスマッチはインタラクティブな模倣学習の課題であり、ユーザシーケンスは、新しい、おそらく矛盾するデモを反復的に収集することによってポリシーを改善する。
実証機非互換性の問題に対処するため、本研究はアプローチを設計する。
1)基本方針に基づく新たな実演の適合性を測定すること、及び
2) 新しいユーザから互換性のあるデモを積極的に引き出す。
本研究は,Franka Emika Panda アームを用いた長期的,厳密な操作,および実世界の「フードメッキ」作業を必要とする2つのシミュレーション課題にまたがって,ポストホックフィルタリングによる非互換なデモンストレーションを識別し,新しいユーザからの互換性のあるデモを積極的に引き出すことにより,シミュレーションおよび実環境におけるタスク成功率の向上を図っている。
関連論文リスト
- AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Learning to Discern: Imitating Heterogeneous Human Demonstrations with
Preference and Representation Learning [12.4468604987226]
本稿では、様々な品質とスタイルのデモンストレーションから学習するオフラインの模倣学習フレームワークであるL2Dについて紹介する。
本研究では,L2Dが様々な実演から効果的に評価・学習できることを示す。
論文 参考訳(メタデータ) (2023-10-22T06:08:55Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。