論文の概要: Bridging Action Space Mismatch in Learning from Demonstrations
- arxiv url: http://arxiv.org/abs/2304.03833v1
- Date: Fri, 7 Apr 2023 20:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 19:31:46.300195
- Title: Bridging Action Space Mismatch in Learning from Demonstrations
- Title(参考訳): デモからの学習におけるブリッジングアクションスペースミスマッチ
- Authors: Gautam Salhotra, I-Chun Arthur Liu, Gaurav Sukhatme
- Abstract要約: MAILは、望ましいソリューションへのガイダンスを提供する限り、最適以下のデモから学ぶことができる。
MAILはLfDおよび非LfDベースラインよりも最大27%改善されている。
- 参考スコア(独自算出の注目度): 1.4502611532302039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from demonstrations (LfD) methods guide learning agents to a desired
solution using demonstrations from a teacher. While some LfD methods can handle
small mismatches in the action spaces of the teacher and student, here we
address the case where the teacher demonstrates the task in an action space
that can be substantially different from that of the student -- thereby
inducing a large action space mismatch. We bridge this gap with a framework,
Morphological Adaptation in Imitation Learning (MAIL), that allows training an
agent from demonstrations by other agents with significantly different
morphologies (from the student or each other). MAIL is able to learn from
suboptimal demonstrations, so long as they provide some guidance towards a
desired solution. We demonstrate MAIL on challenging household cloth
manipulation tasks and introduce a new DRY CLOTH task -- cloth manipulation in
3D task with obstacles. In these tasks, we train a visual control policy for a
robot with one end-effector using demonstrations from a simulated agent with
two end-effectors. MAIL shows up to 27% improvement over LfD and non-LfD
baselines. It is deployed to a real Franka Panda robot, and can handle multiple
variations in cloth properties (color, thickness, size, material) and pose
(rotation and translation). We further show generalizability to transfers from
n-to-m end-effectors, in the context of a simple rearrangement task.
- Abstract(参考訳): デモンストレーションから学ぶ (LfD) 手法は、教師のデモンストレーションを用いて学習エージェントを望ましいソリューションに導く。
While some LfD methods can handle small mismatches in the action spaces of the teacher and student, here we address the case where the teacher demonstrates the task in an action space that can be substantially different from that of the student -- thereby inducing a large action space mismatch. We bridge this gap with a framework, Morphological Adaptation in Imitation Learning (MAIL), that allows training an agent from demonstrations by other agents with significantly different morphologies (from the student or each other). MAIL is able to learn from suboptimal demonstrations, so long as they provide some guidance towards a desired solution. We demonstrate MAIL on challenging household cloth manipulation tasks and introduce a new DRY CLOTH task -- cloth manipulation in 3D task with obstacles.
これらのタスクでは,2つのエンドエフェクタを有する模擬エージェントのデモンストレーションを用いて,ロボットの視覚制御ポリシーを1つのエンドエフェクタで訓練する。
MAILはLfDおよび非LfDベースラインよりも最大27%改善されている。
本物のFranka Pandaロボットにデプロイされ、布の特性(色、厚さ、サイズ、材料)とポーズ(回転と翻訳)のさまざまなバリエーションを扱うことができる。
さらに,単純な再配置タスクの文脈において,n-m-エンドエフェクタへの転送の一般化性を示す。
関連論文リスト
- Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - One ACT Play: Single Demonstration Behavior Cloning with Action Chunking
Transformers [11.875194596371484]
人間は1つか2つのデモを見ただけで、複雑なタスクを完了させることを学ぶことができる。
我々の研究は、行動クローニングを使用して、人間の1つのデモンストレーションのみを与えられたタスクを学ぶことで、この能力をエミュレートすることを目指している。
本研究では,行動チャンキングエージェントが推論時に使用する時間的アンサンブル法に新たな付加法を開発した。
論文 参考訳(メタデータ) (2023-09-18T21:50:26Z) - One-shot Imitation Learning via Interaction Warping [32.5466340846254]
本稿では,1つの実演からSE(3)ロボット操作ポリシーを学習するためのインタラクションウォーピング法を提案する。
我々は、オブジェクトインスタンス間で点雲を整列させる技術である形状ワープを用いて、環境中の各オブジェクトの3Dメッシュを推論する。
3つのシミュレーションおよび実世界のオブジェクト再配置タスクで1ショットの模倣学習を成功させる。
論文 参考訳(メタデータ) (2023-06-21T17:26:11Z) - Imitating Task and Motion Planning with Visuomotor Transformers [71.41938181838124]
タスク・アンド・モーション・プランニング(TAMP)は、多様なデモンストレーションの大規模なデータセットを自律的に生成できる。
本研究では,TAMPスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせが,ロボット操作の強力なパラダイムであることを示す。
我々は,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する OPTIMUS という新しい模倣学習システムを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:58:14Z) - Cross-Domain Transfer via Semantic Skill Imitation [49.83150463391275]
本稿では、例えば人間ビデオなどのソースドメインからのデモンストレーションを利用して、強化学習(RL)を高速化する意味模倣手法を提案する。
関節速度のような低レベルな動作を模倣する代わりに、我々のアプローチは「電子レンジを開く」や「ストーブを回す」といった、実証された意味的なスキルのシーケンスを模倣する。
論文 参考訳(メタデータ) (2022-12-14T18:46:14Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - Learning Generalizable Dexterous Manipulation from Human Grasp
Affordance [11.060931225148936]
マルチフィンガーハンドによる有害な操作は、ロボット工学における最も難しい問題の1つだ。
模倣学習の最近の進歩は、強化学習と比較してサンプル効率を大幅に改善した。
本稿では,様々な3Dオブジェクトをカテゴリ内に配置した大規模実演を用いて,デクスタラスな操作を学習することを提案する。
論文 参考訳(メタデータ) (2022-04-05T16:26:22Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。