論文の概要: The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations
- arxiv url: http://arxiv.org/abs/2407.13432v3
- Date: Wed, 23 Oct 2024 08:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:14:30.251868
- Title: The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations
- Title(参考訳): 想像の技:少数のデモから長い水平操作課題を学習する
- Authors: Jan Ole von Hartz, Tim Welschehold, Abhinav Valada, Joschka Boedecker,
- Abstract要約: TP-GMMの適用にはいくつかのオープンな課題がある。
我々はロボットのエンドエフェクター速度を方向と大きさに分解する。
次に、複雑な実証軌道からセグメントとシーケンスのスキルを抽出する。
私たちのアプローチでは,5つのデモから複雑な操作タスクを学習することが可能です。
- 参考スコア(独自算出の注目度): 13.747258771184372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task Parametrized Gaussian Mixture Models (TP-GMM) are a sample-efficient method for learning object-centric robot manipulation tasks. However, there are several open challenges to applying TP-GMMs in the wild. In this work, we tackle three crucial challenges synergistically. First, end-effector velocities are non-Euclidean and thus hard to model using standard GMMs. We thus propose to factorize the robot's end-effector velocity into its direction and magnitude, and model them using Riemannian GMMs. Second, we leverage the factorized velocities to segment and sequence skills from complex demonstration trajectories. Through the segmentation, we further align skill trajectories and hence leverage time as a powerful inductive bias. Third, we present a method to automatically detect relevant task parameters per skill from visual observations. Our approach enables learning complex manipulation tasks from just five demonstrations while using only RGB-D observations. Extensive experimental evaluations on RLBench demonstrate that our approach achieves state-of-the-art performance with 20-fold improved sample efficiency. Our policies generalize across different environments, object instances, and object positions, while the learned skills are reusable.
- Abstract(参考訳): Task Parametrized Gaussian Mixture Models (TP-GMM) は、オブジェクト中心のロボット操作タスクを学習するためのサンプル効率のよい手法である。
しかし、TP-GMMの適用にはいくつかのオープンな課題がある。
本研究では, 相乗的に3つの重要な課題に取り組む。
第一に、エンドエフェクタ速度は非ユークリッドであり、したがって標準GMMを用いたモデリングは困難である。
そこで本研究では,ロボットのエンドエフェクタ速度をその方向と大きさに分解し,リーマンGMMを用いてモデル化する。
第二に、複雑な実演軌跡のセグメンテーションとシーケンシャルスキルに分解速度を利用する。
セグメンテーションを通じて、スキルトラジェクトリをさらに整列させ、従って時間を強力な帰納バイアスとして活用する。
第3に,視覚的観察からスキル毎のタスクパラメータを自動的に検出する手法を提案する。
提案手法は,RGB-D観測のみを用いて,たった5つの実演から複雑な操作タスクを学習することを可能にする。
RLBenchの大規模実験により,20倍の試料効率向上を図った。
我々のポリシーは様々な環境、オブジェクトインスタンス、オブジェクトの位置にまたがって一般化され、学習スキルは再利用されます。
関連論文リスト
- MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - Affordance-based Robot Manipulation with Flow Matching [6.863932324631107]
本フレームワークは,ロボット操作のためのフローマッチングにより,手頃なモデル学習とトラジェクトリ生成を統一する。
評価の結果,提案手法は,言語プロンサによる手軽さを学習し,競争性能を向上することがわかった。
本フレームワークは,ロボット操作のためのフローマッチングにより,相性モデル学習と軌道生成をシームレスに統合する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - DITTO: Demonstration Imitation by Trajectory Transformation [31.930923345163087]
そこで本研究では,RGB-Dビデオ録画による実演映像のワンショット模倣の問題に対処する。
本稿では,2段階のプロセスを提案する。第1段階では実演軌道をオフラインに抽出し,操作対象のセグメンテーションと,容器などの二次物体に対する相対運動を決定する。
オンライン軌道生成段階では、まず全ての物体を再検出し、次にデモ軌道を現在のシーンにワープし、ロボット上で実行します。
論文 参考訳(メタデータ) (2024-03-22T13:46:51Z) - Robust Unsupervised Multi-task and Transfer Learning on Gaussian Mixture Models [13.07916598175886]
GMMにおけるマルチタスク学習問題について検討する。
本稿では,EMアルゴリズムに基づくマルチタスクGMM学習手法を提案する。
我々はGMMにおける伝達学習の課題に取り組むためのアプローチを一般化する。
論文 参考訳(メタデータ) (2022-09-30T04:35:12Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Meta Adaptation using Importance Weighted Demonstrations [19.37671674146514]
エージェントが新しいタスクを推測することが困難である場合も少なくない。
本稿では,特定のタスクの集合に関する事前知識を活用することで,関連するタスクを一般化する新しいアルゴリズムを提案する。
環境タスクの多様性からロボットを訓練し、目に見えない環境に適応できる実験を行った。
論文 参考訳(メタデータ) (2019-11-23T07:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。