論文の概要: Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation
- arxiv url: http://arxiv.org/abs/2505.12744v1
- Date: Mon, 19 May 2025 06:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.432194
- Title: Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation
- Title(参考訳): ロボットマニピュレーションのための大規模モデルにおけるマルチモーダル推論のインセンティブ化
- Authors: Weiliang Tang, Dong Jing, Jia-Hui Pan, Zhiwu Lu, Yun-Hui Liu, Li Erran Li, Mingyu Ding, Chi-Wing Fu,
- Abstract要約: 空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。
また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。
その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
- 参考スコア(独自算出の注目度): 89.5123417007126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Large Multimodal Models have demonstrated remarkable reasoning capabilities, especially in solving complex mathematical problems and realizing accurate spatial perception. Our key insight is that these emerging abilities can naturally extend to robotic manipulation by enabling LMMs to directly infer the next goal in language via reasoning, rather than relying on a separate action head. However, this paradigm meets two main challenges: i) How to make LMMs understand the spatial action space, and ii) How to fully exploit the reasoning capacity of LMMs in solving these tasks. To tackle the former challenge, we propose a novel task formulation, which inputs the current states of object parts and the gripper, and reformulates rotation by a new axis representation instead of traditional Euler angles. This representation is more compatible with spatial reasoning and easier to interpret within a unified language space. For the latter challenge, we design a pipeline to utilize cutting-edge LMMs to generate a small but high-quality reasoning dataset of multi-round dialogues that successfully solve manipulation tasks for supervised fine-tuning. Then, we perform reinforcement learning by trial-and-error interactions in simulation to further enhance the model's reasoning abilities for robotic manipulation. Our resulting reasoning model built upon a 7B backbone, named ReasonManip, demonstrates three notable advantages driven by its system-2 level reasoning capabilities: i) exceptional generalizability to out-of-distribution environments, objects, and tasks; ii) inherent sim-to-real transfer ability enabled by the unified language representation shared across domains; iii) transparent interpretability connecting high-level reasoning and low-level control. Extensive experiments demonstrate the effectiveness of the proposed paradigm and its potential to advance LMM-driven robotic manipulation.
- Abstract(参考訳): 最近の大規模マルチモーダルモデルは、特に複雑な数学的問題の解決と正確な空間知覚の実現において顕著な推論能力を示している。
私たちの重要な洞察は、これらの新興能力は、別個のアクションヘッドに頼るのではなく、推論によってLMMが言語で次の目標を直接推測できるようにすることによって、ロボット操作に自然に拡張できるということです。
しかし、このパラダイムは2つの大きな課題を満たす。
一 空間行動空間をLMMに理解させる方法、及び
二 これらの課題を解決する上で、LMMの推論能力を完全に活用する方法。
従来のオイラー角の代わりに,対象部品とグリップの現在の状態を入力し,新たな軸表現によって回転を再構成するタスク定式化を提案する。
この表現は、空間的推論とより互換性があり、統一言語空間内での解釈が容易である。
後者の課題は、最先端のLMMを用いて、教師付き微調整のための操作タスクをうまく解決する、小型ながら高品質な多ラウンド対話推論データセットを生成するパイプラインを設計することである。
そして,ロボット操作におけるモデルの推論能力をさらに向上させるために,試行錯誤による強化学習をシミュレーションで実施する。
その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、System-2レベル推論機能によって駆動される3つの顕著なアドバンテージを示しています。
一 アウト・オブ・ディストリビューション環境、物及び業務に対する例外的な一般化可能性
二 ドメイン間で共有される統一言語表現によって実現される固有のsim-to-real転送能力
三 高レベルの推論と低レベルの制御を接続する透明な解釈可能性。
大規模な実験は、提案パラダイムの有効性とLMM駆動型ロボット操作を前進させる可能性を示す。
関連論文リスト
- Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models [45.05285463251872]
我々は,新世代の大規模言語モデル(LLM)に不可欠なアプローチとして,新しい学習パラダイム - Modular Machine Learning (MML) を導入する。
MMLは、LLMの複雑な構造を、モジュラー表現、モジュラーモデル、モジュラー推論の3つの相互依存コンポーネントに分解する。
本稿では,非絡み合い表現学習,ニューラルアーキテクチャ探索,ニューロシンボリック学習などの高度な技術を活用して,MLに基づくLLMの実現の可能性を示す。
論文 参考訳(メタデータ) (2025-04-28T17:42:02Z) - A Call for New Recipes to Enhance Spatial Reasoning in MLLMs [85.67171333213301]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - Large Multi-modal Models Can Interpret Features in Large Multi-modal Models [45.509307983813336]
まず、スパースオートエンコーダを用いて表現を人間の理解可能な特徴に分解する。
LMM自体がSAEで学んだオープンセマンティックな特徴を解釈するための自動解釈フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T14:41:36Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文 参考訳(メタデータ) (2024-02-13T12:52:02Z) - Large Multi-Modal Models (LMMs) as Universal Foundation Models for
AI-Native Wireless Systems [57.41621687431203]
大規模言語モデル (LLM) と基礎モデルは6Gシステムのゲームチェンジャーとして最近注目されている。
本稿では,人工知能(AI)ネイティブネットワークの展開に適したユニバーサルファンデーションモデルを設計するための包括的ビジョンを提案する。
論文 参考訳(メタデータ) (2024-01-30T00:21:41Z) - ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文 参考訳(メタデータ) (2023-12-24T06:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。