論文の概要: Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations
- arxiv url: http://arxiv.org/abs/2404.17521v1
- Date: Fri, 26 Apr 2024 16:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:35:26.079981
- Title: Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations
- Title(参考訳): Ag2Manip: エージェントに依存しない視覚と行動表現による新しい操作スキルの学習
- Authors: Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang,
- Abstract要約: Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
- 参考スコア(独自算出の注目度): 77.31328397965653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous robotic systems capable of learning novel manipulation tasks are poised to transform industries from manufacturing to service automation. However, modern methods (e.g., VIP and R3M) still face significant hurdles, notably the domain gap among robotic embodiments and the sparsity of successful task executions within specific action spaces, resulting in misaligned and ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic representations for Manipulation), a framework aimed at surmounting these challenges through two key innovations: a novel agent-agnostic visual representation derived from human manipulation videos, with the specifics of embodiments obscured to enhance generalizability; and an agent-agnostic action representation abstracting a robot's kinematics to a universal agent proxy, emphasizing crucial interactions between end-effector and object. Ag2Manip's empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill, and PartManip shows a 325% increase in performance, achieved without domain-specific demonstrations. Ablation studies underline the essential contributions of the visual and action representations to this success. Extending our evaluations to the real world, Ag2Manip significantly improves imitation learning success rates from 50% to 77.5%, demonstrating its effectiveness and generalizability across both simulated and physical environments.
- Abstract(参考訳): 新規な操作タスクを学習できる自律ロボットシステムは、産業を製造業からサービス自動化に転換する。
しかし、現代の手法(例えば、VIP、R3M)は依然として大きなハードルに直面しており、特にロボットのエンボディメント間のドメインギャップと特定のアクション空間内でのタスク実行の成功の空間は不一致であいまいなタスク表現をもたらす。
本稿では,これらの課題を克服するためのフレームワークであるAg2Manipを紹介した。人間の操作ビデオから派生した新しいエージェント非依存の視覚表現と,一般化性を高めるための具体化の具体化,ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化するエージェント非依存の動作表現,エンドエフェクタとオブジェクト間の重要な相互作用を強調する。
FrankaKitchen、ManiSkill、PartManipといったシミュレーションベンチマークによるAg2Manipの実証検証では、ドメイン固有のデモなしで達成されたパフォーマンスが325%向上している。
アブレーション研究は、この成功に対する視覚的および行動的表現の本質的な貢献を根拠にしている。
Ag2Manipは実世界での評価を拡大し、模倣学習の成功率を50%から77.5%に大幅に改善し、シミュレーション環境と物理環境の両方でその効果と一般化性を示す。
関連論文リスト
- Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
本稿では、視覚言語モデル(VLM)によって形成される報酬について研究し、ロボット学習における報酬の密度を定義する。
自然言語記述によって指定された実世界の操作タスクにおいて、これらの報酬は自律的RLのサンプル効率を向上させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Representation Abstractions as Incentives for Reinforcement Learning
Agents: A Robotic Grasping Case Study [3.4777703321218225]
本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な状態表現の効果について検討する。
状態表現の抽象化の連続体は、完全なシステム知識を持つモデルベースのアプローチから始まる。
シミュレーションにおける課題の解決と実際のロボットへの学習方針の伝達性に対する各表現の効果について検討する。
論文 参考訳(メタデータ) (2023-09-21T11:41:22Z) - Vision-Language Models as Success Detectors [22.04312297048653]
シミュレーションされた家庭における対話型言語調和エージェント(i)実世界ロボット操作(ii)、そして(iii)「夢中」人間中心のビデオの3つの領域にわたる成功検出について検討した。
フラミンゴをベースとした成功度検出モデルの一般化特性と,最初の2つの領域における視覚的変化について検討し,いずれの変分においても,提案手法がベスパイク報酬モデルより優れていることを示した。
In-the-wild」人間のビデオの最後の領域では、目に見えない実ビデオで成功を検知することは、さらに難しい一般化タスクの保証を示す。
論文 参考訳(メタデータ) (2023-03-13T16:54:11Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z) - Practical Imitation Learning in the Real World via Task Consistency Loss [18.827979446629296]
本稿では,機能レベルと行動予測レベルの両方において,シミュレートと実際のアライメントを促進する自己監督的損失を提案する。
我々は、シミュレートとリアルで遠隔操作されたデモンストレーションを16.2時間しか使っていない10のシーンで80%の成功を達成した。
論文 参考訳(メタデータ) (2022-02-03T21:43:06Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。