Fugu-MT 論文翻訳(概要): RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation

論文の概要: RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation

arxiv url: http://arxiv.org/abs/2406.04339v2
Date: Sat, 14 Dec 2024 18:41:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:58.230047
Title: RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation
Title（参考訳）: RoboMamba:ロボット推論とマニピュレーションのための効率的な視覚・言語・行動モデル
Authors: Jiaming Liu, Mengzhen Liu, Zhenyu Wang, Pengju An, Xiaoqi Li, Kaichen Zhou, Senqiao Yang, Renrui Zhang, Yandong Guo, Shanghang Zhang,
Abstract要約: 本稿では,ロボット推論とアクション機能の両方を提供する,エンドツーエンドのロボットVLAモデルであるRoboMambaを紹介する。具体的には、視覚エンコーダをMambaと統合し、コトレーニングによる言語埋め込みと視覚トークンを整合させる。一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
参考スコア（独自算出の注目度）: 39.44358155600282
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A fundamental objective in robot manipulation is to enable models to comprehend visual scenes and execute actions. Although existing Vision-Language-Action (VLA) models for robots can handle a range of basic tasks, they still face challenges in two areas: (1) insufficient reasoning ability to tackle complex tasks, and (2) high computational costs for VLA model fine-tuning and inference. The recently proposed state space model (SSM) known as Mamba demonstrates promising capabilities in non-trivial sequence modeling with linear inference complexity. Inspired by this, we introduce RoboMamba, an end-to-end robotic VLA model that leverages Mamba to deliver both robotic reasoning and action capabilities, while maintaining efficient fine-tuning and inference. Specifically, we first integrate the vision encoder with Mamba, aligning visual tokens with language embedding through co-training, empowering our model with visual common sense and robotic-related reasoning. To further equip RoboMamba with SE(3) pose prediction abilities, we explore an efficient fine-tuning strategy with a simple policy head. We find that once RoboMamba possesses sufficient reasoning capability, it can acquire manipulation skills with minimal fine-tuning parameters (0.1\% of the model) and time. In experiments, RoboMamba demonstrates outstanding reasoning capabilities on general and robotic evaluation benchmarks. Meanwhile, our model showcases impressive pose prediction results in both simulation and real-world experiments, achieving inference speeds 3 times faster than existing VLA models. Our project web page: https://sites.google.com/view/robomamba-web
Abstract（参考訳）: ロボット操作の基本的な目的は、モデルが視覚的なシーンを理解し、アクションを実行することを可能にすることである。ロボットのための既存のビジョン・ランゲージ・アクション(VLA)モデルは、様々な基本的なタスクを処理できるが、(1)複雑なタスクに取り組むための推論能力の不足、(2)VLAモデルの微調整と推論のための高い計算コストの2つの領域で課題に直面している。 Mambaとして知られる最近提案された状態空間モデル(SSM)は、線形推論複雑性を持つ非自明なシーケンスモデリングにおいて有望な能力を示す。このことにインスパイアされたRoboMambaは、Mambaを利用してロボット推論とアクション機能の両方を提供するエンドツーエンドのロボットVLAモデルであり、効率的な微調整と推論を維持している。具体的には、視覚エンコーダをMambaと統合し、コトレーニングを通じて視覚トークンを言語埋め込みと整合させ、視覚共通感覚とロボット関連推論でモデルを強化する。さらに,SE(3)の予測能力を備えたロボマンバを装備するために,簡単なポリシヘッドを用いた効率的な微調整戦略を探索する。一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータ(モデルの0.15%)と時間で操作スキルを習得できることがわかった。実験では、RoboMambaは一般的な評価ベンチマークとロボット評価ベンチマークで優れた推論能力を示した。一方,本モデルでは,シミュレーションと実世界の実験の両方において,印象的なポーズ予測結果を示し,既存のVLAモデルよりも3倍高速な推論速度を実現している。プロジェクトのWebページ: https://sites.google.com/view/robomamba-web

関連論文リスト

ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation [12.178807390472693]
VLM(Vision-Language Models)は、人工知能とロボティクスに革命をもたらした。ロボット操作では、VLMは主に高レベルプランナーとして使用されるが、最近の研究は、その低レベル推論能力についても研究している。 VLMの低レベルロボット操作推論能力を評価するために,新しいベンチマークManipBenchを提案する。
論文参考訳（メタデータ） (2025-05-14T18:01:00Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? [33.573056018368504]
本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。我々は、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を識別する。以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。
論文参考訳（メタデータ） (2024-06-28T07:09:06Z)
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文参考訳（メタデータ） (2024-06-17T17:55:29Z)
RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-15T19:22:51Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文参考訳（メタデータ） (2023-11-02T16:34:33Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation [33.10577695383743]
ロボット操作のためのマルチタスク汎用エージェントRoboCatを提案する。このデータは、シミュレートされた本物のロボットアームから、さまざまな観察とアクションのセットでモーターコントロールスキルの大規模なレパートリーにまたがる。 RoboCatでは、ゼロショットだけでなく、100-1000例のみを用いて適応することで、新しいタスクやロボットに一般化する能力を実証する。
論文参考訳（メタデータ） (2023-06-20T17:35:20Z)
Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。 Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文参考訳（メタデータ） (2023-06-20T07:06:04Z)
VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文参考訳（メタデータ） (2022-10-06T17:50:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。