論文の概要: RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation
- arxiv url: http://arxiv.org/abs/2406.04339v2
- Date: Sat, 14 Dec 2024 18:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:35.670419
- Title: RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation
- Title(参考訳): RoboMamba:ロボット推論とマニピュレーションのための効率的な視覚・言語・行動モデル
- Authors: Jiaming Liu, Mengzhen Liu, Zhenyu Wang, Pengju An, Xiaoqi Li, Kaichen Zhou, Senqiao Yang, Renrui Zhang, Yandong Guo, Shanghang Zhang,
- Abstract要約: 本稿では,ロボット推論とアクション機能の両方を提供する,エンドツーエンドのロボットVLAモデルであるRoboMambaを紹介する。
具体的には、視覚エンコーダをMambaと統合し、コトレーニングによる言語埋め込みと視覚トークンを整合させる。
一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
- 参考スコア(独自算出の注目度): 39.44358155600282
- License:
- Abstract: A fundamental objective in robot manipulation is to enable models to comprehend visual scenes and execute actions. Although existing Vision-Language-Action (VLA) models for robots can handle a range of basic tasks, they still face challenges in two areas: (1) insufficient reasoning ability to tackle complex tasks, and (2) high computational costs for VLA model fine-tuning and inference. The recently proposed state space model (SSM) known as Mamba demonstrates promising capabilities in non-trivial sequence modeling with linear inference complexity. Inspired by this, we introduce RoboMamba, an end-to-end robotic VLA model that leverages Mamba to deliver both robotic reasoning and action capabilities, while maintaining efficient fine-tuning and inference. Specifically, we first integrate the vision encoder with Mamba, aligning visual tokens with language embedding through co-training, empowering our model with visual common sense and robotic-related reasoning. To further equip RoboMamba with SE(3) pose prediction abilities, we explore an efficient fine-tuning strategy with a simple policy head. We find that once RoboMamba possesses sufficient reasoning capability, it can acquire manipulation skills with minimal fine-tuning parameters (0.1\% of the model) and time. In experiments, RoboMamba demonstrates outstanding reasoning capabilities on general and robotic evaluation benchmarks. Meanwhile, our model showcases impressive pose prediction results in both simulation and real-world experiments, achieving inference speeds 3 times faster than existing VLA models. Our project web page: https://sites.google.com/view/robomamba-web
- Abstract(参考訳): ロボット操作の基本的な目的は、モデルが視覚的なシーンを理解し、アクションを実行することを可能にすることである。
ロボットのための既存のビジョン・ランゲージ・アクション(VLA)モデルは、様々な基本的なタスクを処理できるが、(1)複雑なタスクに取り組むための推論能力の不足、(2)VLAモデルの微調整と推論のための高い計算コストの2つの領域で課題に直面している。
Mambaとして知られる最近提案された状態空間モデル(SSM)は、線形推論複雑性を持つ非自明なシーケンスモデリングにおいて有望な能力を示す。
このことにインスパイアされたRoboMambaは、Mambaを利用してロボット推論とアクション機能の両方を提供するエンドツーエンドのロボットVLAモデルであり、効率的な微調整と推論を維持している。
具体的には、視覚エンコーダをMambaと統合し、コトレーニングを通じて視覚トークンを言語埋め込みと整合させ、視覚共通感覚とロボット関連推論でモデルを強化する。
さらに,SE(3)の予測能力を備えたロボマンバを装備するために,簡単なポリシヘッドを用いた効率的な微調整戦略を探索する。
一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータ(モデルの0.15%)と時間で操作スキルを習得できることがわかった。
実験では、RoboMambaは一般的な評価ベンチマークとロボット評価ベンチマークで優れた推論能力を示した。
一方,本モデルでは,シミュレーションと実世界の実験の両方において,印象的なポーズ予測結果を示し,既存のVLAモデルよりも3倍高速な推論速度を実現している。
プロジェクトのWebページ: https://sites.google.com/view/robomamba-web
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。
パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。
実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-15T19:22:51Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。
Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。
これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。