論文の概要: Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.01618v1
- Date: Mon, 03 Nov 2025 14:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.295121
- Title: Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
- Title(参考訳): 実例:多モーダル大言語モデルの活性化空間推論能力
- Authors: Xiaoyu Zhan, Wenxuan Huang, Hao Sun, Xinyu Fu, Changfeng Ma, Shaosheng Cao, Bohan Jia, Shaohui Lin, Zhenfei Yin, Lei Bai, Wanli Ouyang, Yuanqi Li, Jie Guo, Yanwen Guo,
- Abstract要約: 本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 75.45940282834327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have significantly improved 2D visual understanding, prompting interest in their application to complex 3D reasoning tasks. However, it remains unclear whether these models can effectively capture the detailed spatial information required for robust real-world performance, especially cross-view consistency, a key requirement for accurate 3D reasoning. Considering this issue, we introduce Viewpoint Learning, a task designed to evaluate and improve the spatial reasoning capabilities of MLLMs. We present the Viewpoint-100K dataset, consisting of 100K object-centric image pairs with diverse viewpoints and corresponding question-answer pairs. Our approach employs a two-stage fine-tuning strategy: first, foundational knowledge is injected to the baseline MLLM via Supervised Fine-Tuning (SFT) on Viewpoint-100K, resulting in significant improvements across multiple tasks; second, generalization is enhanced through Reinforcement Learning using the Group Relative Policy Optimization (GRPO) algorithm on a broader set of questions. Additionally, we introduce a hybrid cold-start initialization method designed to simultaneously learn viewpoint representations and maintain coherent reasoning thinking. Experimental results show that our approach significantly activates the spatial reasoning ability of MLLM, improving performance on both in-domain and out-of-domain reasoning tasks. Our findings highlight the value of developing foundational spatial skills in MLLMs, supporting future progress in robotics, autonomous systems, and 3D scene understanding.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、2Dの視覚的理解を大幅に改善し、複雑な3D推論タスクへの関心を喚起している。
しかし、これらのモデルが堅牢な実世界のパフォーマンス、特に正確な3D推論のための重要な要件であるクロスビュー整合性に必要な詳細な空間情報を効果的に捉えることができるかどうかは不明である。
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
提案手法は,2段階のファインチューニング戦略を用いており,第1に,ビューポイント100K上での監視ファインチューニング(SFT)によるベースラインMLLMに基礎知識を注入することにより,複数のタスクにまたがる大幅な改善を実現し,第2に,グループ相対ポリシー最適化(GRPO)アルゴリズムを用いた強化学習を通じて,より広範な質問に対して一般化を行う。
さらに、視点表現を同時に学習し、一貫性のある推論思考を維持するために設計されたハイブリッドコールドスタート初期化手法を提案する。
実験の結果,本手法はMLLMの空間的推論能力を著しく活性化し,ドメイン内およびドメイン外推論タスクの性能向上を図っている。
本研究は,MLLMにおける基礎的空間スキル開発の価値を強調し,ロボット工学,自律システム,三次元シーン理解の今後の進歩を支援するものである。
関連論文リスト
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes [65.88899655866871]
我々は,MLLMの視覚知覚能力を高めるために,DIP-R1(Deep Inspection and Perception with RL)という新しいフレームワークを開発した。
DIP-R1は、3つのシンプルなルールベースの報酬モデリングを通じて、MLLMをビジュアルシーンの詳細な検査を通じてガイドする。
本研究は,RLをMLLMに組み込むことにより,複雑な実世界の知覚タスクにおける能力向上の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-29T07:16:16Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。