論文の概要: Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
- arxiv url: http://arxiv.org/abs/2412.14171v1
- Date: Wed, 18 Dec 2024 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:52.380805
- Title: Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
- Title(参考訳): 空間における思考:マルチモーダルな大言語モデルが空間をどう見たり、思い出したり、リコールするか
- Authors: Jihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie,
- Abstract要約: 5000組以上の質問応答対からなるビデオベース視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。
MLLM(Multimodal Large Language Models)は,非人間的な視覚空間知能を持つ。
- 参考スコア(独自算出の注目度): 34.809309396448654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans possess the visual-spatial intelligence to remember spaces from sequential visual observations. However, can Multimodal Large Language Models (MLLMs) trained on million-scale video datasets also ``think in space'' from videos? We present a novel video-based visual-spatial intelligence benchmark (VSI-Bench) of over 5,000 question-answer pairs, and find that MLLMs exhibit competitive - though subhuman - visual-spatial intelligence. We probe models to express how they think in space both linguistically and visually and find that while spatial reasoning capabilities remain the primary bottleneck for MLLMs to reach higher benchmark performance, local world models and spatial awareness do emerge within these models. Notably, prevailing linguistic reasoning techniques (e.g., chain-of-thought, self-consistency, tree-of-thoughts) fail to improve performance, whereas explicitly generating cognitive maps during question-answering enhances MLLMs' spatial distance ability.
- Abstract(参考訳): 人間は、連続した視覚観察から空間を記憶する視覚空間知能を持っている。
しかし、Multimodal Large Language Models (MLLMs)は、ビデオから「宇宙を考える」ために、百万規模のビデオデータセットでトレーニングできるだろうか?
5000組以上の質問応答対からなるビデオベースの視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。
言語的にも視覚的にも、空間的推論能力は、MLLMがより高いベンチマーク性能に達するための主要なボトルネックであり続けるが、局所世界モデルと空間的認識はこれらのモデルの中に出現する。
特に、一般的な言語推論技術(例えば、チェーン・オブ・思想、自己整合性、思考木など)は性能向上に失敗し、質問応答中に認知地図を明示的に生成することでMLLMの空間距離能力が向上する。
関連論文リスト
- Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - ST-Think: How Multimodal Large Language Models Reason About 4D Worlds from Ego-Centric Videos [8.279721795956124]
人間は空間的時間的推論において優れ、エゴセントリックな視点から動的視覚事象を熱心に解釈する。
本稿では,人間のような推論能力を持つMLLMの装備を目指して,エゴセントリックな視点からマルチモーダルな時空間推論を考察する。
論文 参考訳(メタデータ) (2025-03-16T15:24:11Z) - Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space [41.18548960865975]
オープンな3次元空間における最先端基礎モデル(SOTA)の空間的推論能力を包括的に評価する新しいベンチマークOpen3DVQAを提案する。
Open3DVQAは9kのVQAサンプルで構成され、高忠実度都市シミュレーターにおける効率的な半自動ツールを用いて収集される。
論文 参考訳(メタデータ) (2025-03-14T05:35:38Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models [78.06537464850538]
シミュレーションは,実画像に翻訳する空間的適性を与えるのに驚くほど効果的であることを示す。
シミュレーションにおける完全アノテーションは、擬似アノテーション実画像の既存のアプローチよりも効果的であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:52:45Z) - Does Spatial Cognition Emerge in Frontier Models? [56.47912101304053]
本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。
その結果、現代のフロンティアモデルは動物の空間知能に劣っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T01:41:49Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。
本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。
画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文 参考訳(メタデータ) (2022-03-15T17:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。