論文の概要: On the Generalization Capacities of MLLMs for Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2603.06704v1
- Date: Thu, 05 Mar 2026 14:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.893823
- Title: On the Generalization Capacities of MLLMs for Spatial Intelligence
- Title(参考訳): 空間知能のためのMLLMの一般化能力について
- Authors: Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu,
- Abstract要約: 我々は、RGBのみのアプローチは、カメラをまたいで一般化する能力に根本的な欠陥があると主張している。
これによりMLLMは、真の3次元幾何学的原理を学習するのではなく、トレーニングカメラの分布に過度に適合することを示す。
空間MLLMのためのカメラ対応MLLMフレームワークを提案する。
- 参考スコア(独自算出の注目度): 72.21075026598761
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) that directly process RGB inputs for tasks like 3D localization and navigation have shown remarkable potential. However, we argue that these RGB-only approaches are fundamentally flawed in their ability to generalize across cameras. By ignoring camera parameters, they entangle an object's physical properties with the camera's perspective, creating an irresolvable ambiguity. We show this leads MLLMs to overfit to the training camera distribution, rather than learning true and generalizable 3D geometric principles. To address this, we propose Camera-Aware MLLM framework for spatial MLLMs. It learns generalizable spatial reasoning by: (i) injecting camera intrinsics via a dense embedding that conditions each visual token; (ii) introducing a camera-aware data augmentation strategy that synthetically varies camera parameters, forcing the model to disentangle camera properties from scene content; and (iii) distilling geometric priors from a 3D vision foundation model. Extensive experiments demonstrate that camera-aware MLLMs substantially outperform their naive counterparts, particularly in cross-camera generalization tests on spatially-grounded tasks, indicating that camera-awareness is not only beneficial but also a prerequisite for robust and generalizable spatial intelligence in MLLMs.
- Abstract(参考訳): 3DローカライゼーションやナビゲーションといったタスクのためにRGB入力を直接処理するマルチモーダル大規模言語モデル(MLLM)は、非常に有益である。
しかし、これらのRGBのみのアプローチは、カメラにまたがる一般化能力に根本的な欠陥があることを論じる。
カメラパラメータを無視することで、カメラの視点で物体の物理的特性を絡ませ、不可解な曖昧さを生み出す。
これによりMLLMは、真の3次元幾何学的原理を学習するのではなく、トレーニングカメラの分布に過度に適合することを示す。
そこで我々は,空間MLLMのためのカメラ対応MLLMフレームワークを提案する。
一般化可能な空間的推論を学習する。
一 それぞれの視覚的トークンを条件づけた密着な埋め込みにより、カメラ本質を注入すること。
二 カメラパラメータを合成的に変化させるカメラ対応データ拡張戦略を導入し、シーン内容からカメラ特性を遠ざけるよう強制する。
三 立体視基盤モデルから幾何学的先行物を蒸留すること。
広汎な実験により、カメラ対応MLLMは、特に空間的に接地されたタスクにおけるクロスカメラの一般化テストにおいて、彼らのナイーブな能力を大幅に上回っていることが示され、カメラ認識は益であるだけでなく、MLLMにおける堅牢で一般化可能な空間知能の必要条件でもあることが示された。
関連論文リスト
- SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models [13.88629412035865]
大規模視覚言語モデル(VLM)は、強いマルチモーダル理解を示すが、3次元空間的推論に苦慮している。
本研究では,RGB入力のみから空間推論を行うために設計されたマルチモーダルな大規模言語モデルであるSpaceMindを提案する。
論文 参考訳(メタデータ) (2025-11-28T11:04:21Z) - Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。
我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。
私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文 参考訳(メタデータ) (2025-09-02T17:29:38Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。