Fugu-MT 論文翻訳(概要): Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations

論文の概要: Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations

arxiv url: http://arxiv.org/abs/2404.17521v1
Date: Fri, 26 Apr 2024 16:40:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 12:35:26.079981
Title: Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations
Title（参考訳）: Ag2Manip: エージェントに依存しない視覚と行動表現による新しい操作スキルの学習
Authors: Puhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang,
Abstract要約: Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
参考スコア（独自算出の注目度）: 77.31328397965653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous robotic systems capable of learning novel manipulation tasks are poised to transform industries from manufacturing to service automation. However, modern methods (e.g., VIP and R3M) still face significant hurdles, notably the domain gap among robotic embodiments and the sparsity of successful task executions within specific action spaces, resulting in misaligned and ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic representations for Manipulation), a framework aimed at surmounting these challenges through two key innovations: a novel agent-agnostic visual representation derived from human manipulation videos, with the specifics of embodiments obscured to enhance generalizability; and an agent-agnostic action representation abstracting a robot's kinematics to a universal agent proxy, emphasizing crucial interactions between end-effector and object. Ag2Manip's empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill, and PartManip shows a 325% increase in performance, achieved without domain-specific demonstrations. Ablation studies underline the essential contributions of the visual and action representations to this success. Extending our evaluations to the real world, Ag2Manip significantly improves imitation learning success rates from 50% to 77.5%, demonstrating its effectiveness and generalizability across both simulated and physical environments.
Abstract（参考訳）: 新規な操作タスクを学習できる自律ロボットシステムは、産業を製造業からサービス自動化に転換する。しかし、現代の手法(例えば、VIP、R3M)は依然として大きなハードルに直面しており、特にロボットのエンボディメント間のドメインギャップと特定のアクション空間内でのタスク実行の成功の空間は不一致であいまいなタスク表現をもたらす。本稿では,これらの課題を克服するためのフレームワークであるAg2Manipを紹介した。人間の操作ビデオから派生した新しいエージェント非依存の視覚表現と,一般化性を高めるための具体化の具体化,ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化するエージェント非依存の動作表現,エンドエフェクタとオブジェクト間の重要な相互作用を強調する。 FrankaKitchen、ManiSkill、PartManipといったシミュレーションベンチマークによるAg2Manipの実証検証では、ドメイン固有のデモなしで達成されたパフォーマンスが325%向上している。アブレーション研究は、この成功に対する視覚的および行動的表現の本質的な貢献を根拠にしている。 Ag2Manipは実世界での評価を拡大し、模倣学習の成功率を50%から77.5%に大幅に改善し、シミュレーション環境と物理環境の両方でその効果と一般化性を示す。

関連論文リスト

Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [61.033745979145536]
本研究は,ヒューマノイドの具体化におけるコンタクトリッチな操作タスクの集合を解決するために,強化学習を適用する上で重要な課題について検討する。私たちの主なコントリビューションは、シミュレーション環境を現実世界に近づける自動リアルタイムチューニングモジュールです。本研究は,3つのヒューマノイド・デキスタラス・オペレーティング・タスクにおいて有望な結果を示し,それぞれのテクニックについてアブレーション研究を行った。
論文参考訳（メタデータ） (2025-02-27T18:59:52Z)
AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations [18.820883566002543]
MLLM(Multimodal Large Language Models)を利用する最先端のマルチモーダルWebエージェントは、多くのWebタスクを自律的に実行することができる。 Webエージェントを構築するための現在の戦略は、(i)基礎となるMLLMの一般化可能性と、(ii)Web関連タスクにおけるMLLMの大規模微調整によるその操縦性に依存している。そこで我々はAdaptAgentフレームワークを導入し、プロプライエタリなマルチモーダルWebエージェントとオープンなマルチモーダルWebエージェントの両方が、人間のデモをほとんど使わずに新しいWebサイトやドメインに適応できるようにする。
論文参考訳（メタデータ） (2024-11-20T16:54:15Z)
Learning Generalizable 3D Manipulation With 10 Demonstrations [16.502781729164973]
10個のデモから操作スキルを学習する新しいフレームワークを提案する。シミュレーションベンチマークと実世界のロボットシステムの両方に関する広範な実験を通じて、我々のフレームワークを検証する。この研究は、現実世界のアプリケーションにおいて、効率的で一般化可能な操作スキル学習を前進させる大きな可能性を示している。
論文参考訳（メタデータ） (2024-11-15T14:01:02Z)
Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy [9.345203561496552]
GP2E行動クローニングポリシーは、ソフトボディタスクから汎用的な操作スキルを学ぶためのエージェントを誘導することができる。本研究は,Embodied AIモデルの一般化能力を向上する手法の可能性を明らかにするものである。
論文参考訳（メタデータ） (2024-10-08T07:31:10Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)
AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。 AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文参考訳（メタデータ） (2024-04-11T01:59:29Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文参考訳（メタデータ） (2023-10-04T17:59:38Z)
State Representations as Incentives for Reinforcement Learning Agents: A Sim2Real Analysis on Robotic Grasping [3.4777703321218225]
本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な表現の効果について検討する。手作りの数値状態から符号化された画像ベース表現に至るまで、状態表現の連続体が定義される。シミュレーションにおけるエージェントの課題解決能力に対する各表現の影響と実ロボットへの学習方針の伝達可能性について検討した。
論文参考訳（メタデータ） (2023-09-21T11:41:22Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。