Fugu-MT 論文翻訳(概要): Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation

論文の概要: Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation

arxiv url: http://arxiv.org/abs/2505.12744v1
Date: Mon, 19 May 2025 06:00:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.432194
Title: Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation
Title（参考訳）: ロボットマニピュレーションのための大規模モデルにおけるマルチモーダル推論のインセンティブ化
Authors: Weiliang Tang, Dong Jing, Jia-Hui Pan, Zhiwu Lu, Yun-Hui Liu, Li Erran Li, Mingyu Ding, Chi-Wing Fu,
Abstract要約: 空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
参考スコア（独自算出の注目度）: 89.5123417007126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent Large Multimodal Models have demonstrated remarkable reasoning capabilities, especially in solving complex mathematical problems and realizing accurate spatial perception. Our key insight is that these emerging abilities can naturally extend to robotic manipulation by enabling LMMs to directly infer the next goal in language via reasoning, rather than relying on a separate action head. However, this paradigm meets two main challenges: i) How to make LMMs understand the spatial action space, and ii) How to fully exploit the reasoning capacity of LMMs in solving these tasks. To tackle the former challenge, we propose a novel task formulation, which inputs the current states of object parts and the gripper, and reformulates rotation by a new axis representation instead of traditional Euler angles. This representation is more compatible with spatial reasoning and easier to interpret within a unified language space. For the latter challenge, we design a pipeline to utilize cutting-edge LMMs to generate a small but high-quality reasoning dataset of multi-round dialogues that successfully solve manipulation tasks for supervised fine-tuning. Then, we perform reinforcement learning by trial-and-error interactions in simulation to further enhance the model's reasoning abilities for robotic manipulation. Our resulting reasoning model built upon a 7B backbone, named ReasonManip, demonstrates three notable advantages driven by its system-2 level reasoning capabilities: i) exceptional generalizability to out-of-distribution environments, objects, and tasks; ii) inherent sim-to-real transfer ability enabled by the unified language representation shared across domains; iii) transparent interpretability connecting high-level reasoning and low-level control. Extensive experiments demonstrate the effectiveness of the proposed paradigm and its potential to advance LMM-driven robotic manipulation.
Abstract（参考訳）: 最近の大規模マルチモーダルモデルは、特に複雑な数学的問題の解決と正確な空間知覚の実現において顕著な推論能力を示している。私たちの重要な洞察は、これらの新興能力は、別個のアクションヘッドに頼るのではなく、推論によってLMMが言語で次の目標を直接推測できるようにすることによって、ロボット操作に自然に拡張できるということです。しかし、このパラダイムは2つの大きな課題を満たす。一空間行動空間をLMMに理解させる方法、及び二これらの課題を解決する上で、LMMの推論能力を完全に活用する方法。従来のオイラー角の代わりに,対象部品とグリップの現在の状態を入力し,新たな軸表現によって回転を再構成するタスク定式化を提案する。この表現は、空間的推論とより互換性があり、統一言語空間内での解釈が容易である。後者の課題は、最先端のLMMを用いて、教師付き微調整のための操作タスクをうまく解決する、小型ながら高品質な多ラウンド対話推論データセットを生成するパイプラインを設計することである。そして,ロボット操作におけるモデルの推論能力をさらに向上させるために,試行錯誤による強化学習をシミュレーションで実施する。その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、System-2レベル推論機能によって駆動される3つの顕著なアドバンテージを示しています。一アウト・オブ・ディストリビューション環境、物及び業務に対する例外的な一般化可能性二ドメイン間で共有される統一言語表現によって実現される固有のsim-to-real転送能力三高レベルの推論と低レベルの制御を接続する透明な解釈可能性。大規模な実験は、提案パラダイムの有効性とLMM駆動型ロボット操作を前進させる可能性を示す。

関連論文リスト

RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow [19.502882116487005]
リモートセンシング画像は、大きく、本質的に非構造的な空間データを提示する。リモートセンシング推論タスクのためのフレキシブルで堅牢なワークフローであるRemoteReasonerを提案する。予備実験により、RemoteReasonerは複数の粒度推論タスクで顕著な性能を発揮することが示された。
論文参考訳（メタデータ） (2025-07-25T13:58:11Z)
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文参考訳（メタデータ） (2025-06-11T17:41:50Z)
Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文参考訳（メタデータ） (2025-06-09T17:38:45Z)
Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models [45.15161506154318]
Infi-MMRは、マルチモーダル小言語モデルの推論能力を体系的に解放するフレームワークである。第1フェーズであるFoundational Reasoning Activationは、高品質なテキスト推論データセットを活用して、モデルの論理推論能力を活性化し、強化する。第2のフェーズであるクロスモーダル推論適応は、キャプション拡張されたマルチモーダルデータを使用して、推論スキルをマルチモーダルコンテキストにプログレッシブに転送する。第3フェーズであるMultimodal Reasoning Enhancementでは、言語バイアスを緩和し、堅牢なクロスモーダル推論を促進するために、キュレートされたキャプションフリーなマルチモーダルデータを採用している。
論文参考訳（メタデータ） (2025-05-29T04:51:56Z)
Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models [45.05285463251872]
我々は,新世代の大規模言語モデル(LLM)に不可欠なアプローチとして,新しい学習パラダイム - Modular Machine Learning (MML) を導入する。 MMLは、LLMの複雑な構造を、モジュラー表現、モジュラーモデル、モジュラー推論の3つの相互依存コンポーネントに分解する。本稿では,非絡み合い表現学習,ニューラルアーキテクチャ探索,ニューロシンボリック学習などの高度な技術を活用して,MLに基づくLLMの実現の可能性を示す。
論文参考訳（メタデータ） (2025-04-28T17:42:02Z)
A Call for New Recipes to Enhance Spatial Reasoning in MLLMs [85.67171333213301]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。近年の研究では、空間的推論能力の限界が明らかにされている。この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文参考訳（メタデータ） (2025-04-21T11:48:39Z)
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models [45.509307983813336]
まず、スパースオートエンコーダを用いて表現を人間の理解可能な特徴に分解する。 LMM自体がSAEで学んだオープンセマンティックな特徴を解釈するための自動解釈フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T14:41:36Z)
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。 LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:55Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。 CNEPは、軌道がどのモードに属するかの監督を必要としない。本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文参考訳（メタデータ） (2024-02-13T12:52:02Z)
Large Multi-Modal Models (LMMs) as Universal Foundation Models for AI-Native Wireless Systems [57.41621687431203]
大規模言語モデル (LLM) と基礎モデルは6Gシステムのゲームチェンジャーとして最近注目されている。本稿では,人工知能(AI)ネイティブネットワークの展開に適したユニバーサルファンデーションモデルを設計するための包括的ビジョンを提案する。
論文参考訳（メタデータ） (2024-01-30T00:21:41Z)
ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文参考訳（メタデータ） (2023-12-24T06:38:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。