論文の概要: SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
- arxiv url: http://arxiv.org/abs/2405.19586v1
- Date: Thu, 30 May 2024 00:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 18:46:29.792884
- Title: SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
- Title(参考訳): SAM-E: 身体操作のためのシーケンス模倣によるビジュアルファウンデーションモデルの活用
- Authors: Junjie Zhang, Chenjia Bai, Haoran He, Wenke Xia, Zhigang Wang, Bin Zhao, Xiu Li, Xuelong Li,
- Abstract要約: Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
- 参考スコア(独自算出の注目度): 62.58480650443393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring a multi-task imitation policy in 3D manipulation poses challenges in terms of scene understanding and action prediction. Current methods employ both 3D representation and multi-view 2D representation to predict the poses of the robot's end-effector. However, they still require a considerable amount of high-quality robot trajectories, and suffer from limited generalization in unseen tasks and inefficient execution in long-horizon reasoning. In this paper, we propose SAM-E, a novel architecture for robot manipulation by leveraging a vision-foundation model for generalizable scene understanding and sequence imitation for long-term action reasoning. Specifically, we adopt Segment Anything (SAM) pre-trained on a huge number of images and promptable masks as the foundation model for extracting task-relevant features, and employ parameter-efficient fine-tuning on robot data for a better understanding of embodied scenarios. To address long-horizon reasoning, we develop a novel multi-channel heatmap that enables the prediction of the action sequence in a single pass, notably enhancing execution efficiency. Experimental results from various instruction-following tasks demonstrate that SAM-E achieves superior performance with higher execution efficiency compared to the baselines, and also significantly improves generalization in few-shot adaptation to new tasks.
- Abstract(参考訳): 3次元操作におけるマルチタスク模倣ポリシーの獲得は、シーン理解とアクション予測の観点からの課題を提起する。
現在の方法は、ロボットのエンドエフェクタのポーズを予測するために、3D表現とマルチビュー2D表現の両方を用いる。
しかし、それらはまだかなりの量の高品質なロボット軌道を必要としており、目に見えないタスクにおける限定的な一般化と、長距離推論における非効率な実行に悩まされている。
本稿では,視覚境界モデルを用いたロボット操作のための新しいアーキテクチャであるSAM-Eを提案する。
具体的には,タスク関連特徴を抽出するための基礎モデルとして,多数の画像とプロンプトマスクを事前訓練したSegment Anything(SAM)を採用し,ロボットデータにパラメータ効率のよい微調整を適用し,実施シナリオの理解を深める。
長軸推論に対処するため,単一パスにおけるアクションシーケンスの予測が可能な新しいマルチチャネルヒートマップを開発し,実行効率を向上する。
各種命令追従タスクによる実験結果から,SAM-Eはベースラインよりも高い実行効率で優れた性能を実現し,新規タスクへの少数ショット適応における一般化を著しく向上することが示された。
関連論文リスト
- 3D-Grounded Vision-Language Framework for Robotic Task Planning: Automated Prompt Synthesis and Supervised Reasoning [2.6670748466660523]
視覚言語モデル(VLM)はシーン理解と知覚タスクにおいて顕著な成功を収めた。
VLMにはロバストな3Dシーンのローカライズ機能がなく、ロボット操作の精度を制限している。
本稿では,2次元画像を点雲にマッピングすることで,2次元プロンプト合成モジュールを統合し,VLM出力を監視するための小さな言語モデル(SLM)を組み込む新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-13T02:40:19Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,新しい値に基づく強化学習アルゴリズムであるCQN-AS(Coarse-to-fine Q-Network with Action Sequence)を紹介する。
我々は,53のロボットタスクに対して,疎密かつ高密度な報酬と実演と無実の報酬を用いたアルゴリズムを検討した。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - Masked AutoDecoder is Effective Multi-Task Vision Generalist [64.43215311406195]
Masked AutoDecoder (MAD) はマルチタスク・ビジョン・ジェネラリストである。
我々は、コンテキスト依存を捉えるために双方向の注意を喚起する並列デコーディングフレームワークを開発する。
第二に、マスキングとタスクシーケンス再構築により、リッチなタスクコンテキストを学習するマスキングシーケンスモデリング手法を設計する。
論文 参考訳(メタデータ) (2024-03-12T14:36:52Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - Efficient and Robust Training of Dense Object Nets for Multi-Object
Robot Manipulation [8.321536457963655]
我々はDense Object Nets(DON)の堅牢で効率的なトレーニングのためのフレームワークを提案する。
本研究は,多目的データを用いた学習に重点を置いている。
実世界のロボットによる把握作業において,提案手法の頑健さと精度を実証する。
論文 参考訳(メタデータ) (2022-06-24T08:24:42Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。