論文の概要: Spatial Reasoning in Multimodal Large Language Models: A Survey of Tasks, Benchmarks and Methods
- arxiv url: http://arxiv.org/abs/2511.15722v1
- Date: Fri, 14 Nov 2025 02:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.28651
- Title: Spatial Reasoning in Multimodal Large Language Models: A Survey of Tasks, Benchmarks and Methods
- Title(参考訳): マルチモーダル大言語モデルにおける空間推論:タスク,ベンチマーク,方法の調査
- Authors: Weichen Liu, Qiyao Xue, Haoming Wang, Xiangyu Yin, Boyuan Yang, Wei Gao,
- Abstract要約: 空間能力は入力形式によってのみ決定されるものではないと我々は主張する。
本調査では,認知的側面から空間知性を整理する分類法を紹介した。
トレーニングベースと推論ベースの両方にまたがる空間能力向上手法を解析する。
- 参考スコア(独自算出の注目度): 11.53401872925025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning, which requires ability to perceive and manipulate spatial relationships in the 3D world, is a fundamental aspect of human intelligence, yet remains a persistent challenge for Multimodal large language models (MLLMs). While existing surveys often categorize recent progress based on input modality (e.g., text, image, video, or 3D), we argue that spatial ability is not solely determined by the input format. Instead, our survey introduces a taxonomy that organizes spatial intelligence from cognitive aspect and divides tasks in terms of reasoning complexity, linking them to several cognitive functions. We map existing benchmarks across text only, vision language, and embodied settings onto this taxonomy, and review evaluation metrics and methodologies for assessing spatial reasoning ability. This cognitive perspective enables more principled cross-task comparisons and reveals critical gaps between current model capabilities and human-like reasoning. In addition, we analyze methods for improving spatial ability, spanning both training-based and reasoning-based approaches. This dual perspective analysis clarifies their respective strengths, uncovers complementary mechanisms. By surveying tasks, benchmarks, and recent advances, we aim to provide new researchers with a comprehensive understanding of the field and actionable directions for future research.
- Abstract(参考訳): 3次元世界における空間的関係を知覚し操作する能力を必要とする空間的推論は、人間の知性の基本的側面であるが、マルチモーダル大言語モデル(MLLM)の永続的な課題である。
既存の調査では、入力モダリティ(例えば、テキスト、画像、ビデオ、あるいは3D)に基づいて最近の進歩を分類することが多いが、空間能力は入力形式によってのみ決定されるものではないと我々は主張する。
その代わり、我々の調査では、認知的側面から空間的知性を整理し、複雑性の推論の観点からタスクを分割する分類を導入し、それらを複数の認知機能にリンクする。
既存のベンチマークをテキストのみ、視覚言語、具体化した設定にマッピングし、空間推論能力を評価するための評価指標と方法論をレビューする。
この認知的観点は、より原則的なクロスタスク比較を可能にし、現在のモデル能力と人間のような推論の間に重要なギャップを明らかにする。
さらに,学習に基づくアプローチと推論に基づくアプローチの両方にまたがって,空間能力を向上させる手法を分析する。
この双対視点解析はそれぞれの強度を明らかにし、相補的なメカニズムを明らかにする。
課題やベンチマーク,最近の進歩を調査することで,今後の研究の分野や行動可能な方向性を包括的に理解し,新たな研究者に提供することを目指している。
関連論文リスト
- Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Large Language Models Meet Stance Detection: A Survey of Tasks, Methods, Applications, Challenges and Future Directions [0.37865171120254354]
スタンス検出は、ソーシャルメディア、ニュース記事、オンラインレビューなど、さまざまなプラットフォームにわたる主観的コンテンツを理解するために不可欠である。
大規模言語モデル(LLM)の最近の進歩は、新しい能力を導入して姿勢検出に革命をもたらした。
本稿では3つの重要な側面に沿って構築されたLCMに基づく姿勢検出手法について,新しい分類法を提案する。
スタンス検出、政治分析、公衆衛生モニタリング、ソーシャルメディアのモデレーションにおける主要な応用について論じる。
論文 参考訳(メタデータ) (2025-05-13T11:47:49Z) - SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。
SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。
ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-05-08T17:45:44Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。