論文の概要: Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations
- arxiv url: http://arxiv.org/abs/2404.17521v1
- Date: Fri, 26 Apr 2024 16:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:35:26.079981
- Title: Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations
- Title(参考訳): Ag2Manip: エージェントに依存しない視覚と行動表現による新しい操作スキルの学習
- Authors: Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang,
- Abstract要約: Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
- 参考スコア(独自算出の注目度): 77.31328397965653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous robotic systems capable of learning novel manipulation tasks are poised to transform industries from manufacturing to service automation. However, modern methods (e.g., VIP and R3M) still face significant hurdles, notably the domain gap among robotic embodiments and the sparsity of successful task executions within specific action spaces, resulting in misaligned and ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic representations for Manipulation), a framework aimed at surmounting these challenges through two key innovations: a novel agent-agnostic visual representation derived from human manipulation videos, with the specifics of embodiments obscured to enhance generalizability; and an agent-agnostic action representation abstracting a robot's kinematics to a universal agent proxy, emphasizing crucial interactions between end-effector and object. Ag2Manip's empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill, and PartManip shows a 325% increase in performance, achieved without domain-specific demonstrations. Ablation studies underline the essential contributions of the visual and action representations to this success. Extending our evaluations to the real world, Ag2Manip significantly improves imitation learning success rates from 50% to 77.5%, demonstrating its effectiveness and generalizability across both simulated and physical environments.
- Abstract(参考訳): 新規な操作タスクを学習できる自律ロボットシステムは、産業を製造業からサービス自動化に転換する。
しかし、現代の手法(例えば、VIP、R3M)は依然として大きなハードルに直面しており、特にロボットのエンボディメント間のドメインギャップと特定のアクション空間内でのタスク実行の成功の空間は不一致であいまいなタスク表現をもたらす。
本稿では,これらの課題を克服するためのフレームワークであるAg2Manipを紹介した。人間の操作ビデオから派生した新しいエージェント非依存の視覚表現と,一般化性を高めるための具体化の具体化,ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化するエージェント非依存の動作表現,エンドエフェクタとオブジェクト間の重要な相互作用を強調する。
FrankaKitchen、ManiSkill、PartManipといったシミュレーションベンチマークによるAg2Manipの実証検証では、ドメイン固有のデモなしで達成されたパフォーマンスが325%向上している。
アブレーション研究は、この成功に対する視覚的および行動的表現の本質的な貢献を根拠にしている。
Ag2Manipは実世界での評価を拡大し、模倣学習の成功率を50%から77.5%に大幅に改善し、シミュレーション環境と物理環境の両方でその効果と一般化性を示す。
関連論文リスト
- Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy [9.345203561496552]
GP2E行動クローニングポリシーは、ソフトボディタスクから汎用的な操作スキルを学ぶためのエージェントを誘導することができる。
本研究は,Embodied AIモデルの一般化能力を向上する手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-08T07:31:10Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - State Representations as Incentives for Reinforcement Learning Agents: A Sim2Real Analysis on Robotic Grasping [3.4777703321218225]
本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な表現の効果について検討する。
手作りの数値状態から符号化された画像ベース表現に至るまで、状態表現の連続体が定義される。
シミュレーションにおけるエージェントの課題解決能力に対する各表現の影響と実ロボットへの学習方針の伝達可能性について検討した。
論文 参考訳(メタデータ) (2023-09-21T11:41:22Z) - Vision-Language Models as Success Detectors [22.04312297048653]
シミュレーションされた家庭における対話型言語調和エージェント(i)実世界ロボット操作(ii)、そして(iii)「夢中」人間中心のビデオの3つの領域にわたる成功検出について検討した。
フラミンゴをベースとした成功度検出モデルの一般化特性と,最初の2つの領域における視覚的変化について検討し,いずれの変分においても,提案手法がベスパイク報酬モデルより優れていることを示した。
In-the-wild」人間のビデオの最後の領域では、目に見えない実ビデオで成功を検知することは、さらに難しい一般化タスクの保証を示す。
論文 参考訳(メタデータ) (2023-03-13T16:54:11Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。