論文の概要: RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation
- arxiv url: http://arxiv.org/abs/2406.04339v1
- Date: Thu, 6 Jun 2024 17:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:11:04.280843
- Title: RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation
- Title(参考訳): RoboMamba:効率的なロボット推論と操作のためのマルチモーダル状態空間モデル
- Authors: Jiaming Liu, Mengzhen Liu, Zhenyu Wang, Lily Lee, Kaichen Zhou, Pengju An, Senqiao Yang, Renrui Zhang, Yandong Guo, Shanghang Zhang,
- Abstract要約: 我々は、ロボット推論とアクション機能の両方を提供するエンドツーエンドのロボットMLLMであるRoboMambaを紹介する。
具体的には、視覚エンコーダをMambaと統合し、協調学習による言語埋め込みと視覚データを整列する。
一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
- 参考スコア(独自算出の注目度): 38.89586890052952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental objective in robot manipulation is to enable models to comprehend visual scenes and execute actions. Although existing robot Multimodal Large Language Models (MLLMs) can handle a range of basic tasks, they still face challenges in two areas: 1) inadequate reasoning ability to tackle complex tasks, and 2) high computational costs for MLLM fine-tuning and inference. The recently proposed state space model (SSM) known as Mamba demonstrates promising capabilities in non-trivial sequence modeling with linear inference complexity. Inspired by this, we introduce RoboMamba, an end-to-end robotic MLLM that leverages the Mamba model to deliver both robotic reasoning and action capabilities, while maintaining efficient fine-tuning and inference. Specifically, we first integrate the vision encoder with Mamba, aligning visual data with language embedding through co-training, empowering our model with visual common sense and robot-related reasoning. To further equip RoboMamba with action pose prediction abilities, we explore an efficient fine-tuning strategy with a simple policy head. We find that once RoboMamba possesses sufficient reasoning capability, it can acquire manipulation skills with minimal fine-tuning parameters (0.1\% of the model) and time (20 minutes). In experiments, RoboMamba demonstrates outstanding reasoning capabilities on general and robotic evaluation benchmarks. Meanwhile, our model showcases impressive pose prediction results in both simulation and real-world experiments, achieving inference speeds 7 times faster than existing robot MLLMs. Our project web page: https://sites.google.com/view/robomamba-web
- Abstract(参考訳): ロボット操作の基本的な目的は、モデルが視覚的なシーンを理解し、アクションを実行することを可能にすることである。
既存のロボットMultimodal Large Language Models(MLLM)は、さまざまな基本的なタスクを扱えるが、それでも2つの領域で課題に直面している。
1)複雑な課題に取り組むのに不十分な推論能力、及び
2) MLLMの微調整と推定には高い計算コストがかかる。
Mambaとして知られる最近提案された状態空間モデル(SSM)は、線形推論複雑性を持つ非自明なシーケンスモデリングにおいて有望な能力を示す。
このことに触発されたRoboMambaは、Mambaモデルを利用して、ロボット推論とアクション機能の両方を提供するとともに、効率的な微調整と推論を維持できるエンド・ツー・エンドのロボットMLLMである。
具体的には、視覚エンコーダをMambaと統合し、視覚データを協調学習による言語埋め込みと整合させ、視覚的常識とロボット関連推論でモデルを強化する。
アクションポーズ予測能力を備えたRoboMambaをさらに装備するために、簡単なポリシーヘッドを用いた効率的な微調整戦略を探索する。
一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータ(モデルの0.15%)と時間(20分)で操作スキルを習得できることがわかった。
実験では、RoboMambaは一般的な評価ベンチマークとロボット評価ベンチマークで優れた推論能力を示した。
一方,本モデルでは,シミュレーションと実世界の実験の両方において,印象的なポーズ予測結果を示し,既存のロボットMLLMの7倍の速度で推論を行う。
プロジェクトのWebページ: https://sites.google.com/view/robomamba-web
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。
パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。
実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-15T19:22:51Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。
Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。
これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。