論文の概要: Spatial Mental Modeling from Limited Views
- arxiv url: http://arxiv.org/abs/2506.21458v1
- Date: Thu, 26 Jun 2025 16:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.197342
- Title: Spatial Mental Modeling from Limited Views
- Title(参考訳): 限られた視点から見た空間的メンタルモデリング
- Authors: Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei,
- Abstract要約: 新しいMindCubeベンチマークでは、3,268枚の画像に21,154件の質問があった。
MindCubeを用いて、視覚言語モデル(VLM)がいかに堅牢な空間精神モデルを構築するかを評価する。
次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
- 参考スコア(独自算出の注目度): 71.57140964322559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can Vision Language Models (VLMs) imagine the full scene from just a few views, like humans do? Humans form spatial mental models, internal representations of unseen space, to reason about layout, perspective, and motion. Our new MindCube benchmark with 21,154 questions across 3,268 images exposes this critical gap, where existing VLMs exhibit near-random performance. Using MindCube, we systematically evaluate how well VLMs build robust spatial mental models through representing positions (cognitive mapping), orientations (perspective-taking), and dynamics (mental simulation for "what-if" movements). We then explore three approaches to help VLMs approximate spatial mental models, including unseen intermediate views, natural language reasoning chains, and cognitive maps. The significant improvement comes from a synergistic approach, "map-then-reason", that jointly trains the model to first generate a cognitive map and then reason upon it. By training models to reason over these internal maps, we boosted accuracy from 37.8% to 60.8% (+23.0%). Adding reinforcement learning pushed performance even further to 70.7% (+32.9%). Our key insight is that such scaffolding of spatial mental models, actively constructing and utilizing internal structured spatial representations with flexible reasoning processes, significantly improves understanding of unobservable space.
- Abstract(参考訳): 視覚言語モデル(VLM: Vision Language Models)は、人間のように、ほんの少しの視点から全体像を想像できるだろうか?
人間は空間的メンタルモデル、見えない空間の内部表現を形成し、レイアウト、視点、動きについて推論する。
新しいMindCubeベンチマークでは、3,268枚の画像に21,154の質問が寄せられ、既存のVLMがほぼランダムなパフォーマンスを示すという重要なギャップが明らかになりました。
MindCubeを用いて、VLMが位置(認知マッピング)、方向(視線撮影)、ダイナミックス(「何」運動のメンタルシミュレーション)を表現して、いかに堅牢な空間的メンタルモデルを構築するかを体系的に評価した。
次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
重要な改善は、まず認知地図を生成し、その上で推論するためにモデルを共同で訓練する"map-then-reason"というシナジスティックなアプローチによるものである。
これらの内部マップを推論するモデルをトレーニングすることで、精度を37.8%から60.8%(+23.0%)に向上しました。
強化学習を追加することでパフォーマンスはさらに70.7%(+32.9%)に向上した。
我々の重要な洞察は、内部構造的空間表現をフレキシブルな推論プロセスで積極的に構築し、活用するこのような空間的メンタルモデルの足場が、観測不可能な空間の理解を著しく改善することである。
関連論文リスト
- Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models [21.311740507694143]
認知心理学に基づく空間的推論のベンチマークであるOmniSpatialを紹介する。
インターネットデータクローリングと手作業による注意深いアノテーションにより,1.5K以上の質問応答ペアを構築した。
論文 参考訳(メタデータ) (2025-06-03T17:58:29Z) - Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [6.569837864665502]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces [34.809309396448654]
5000組以上の質問応答対からなるビデオベース視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。
MLLM(Multimodal Large Language Models)は,非人間的な視覚空間知能を持つ。
論文 参考訳(メタデータ) (2024-12-18T18:59:54Z) - SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models [78.06537464850538]
シミュレーションは,実画像に翻訳する空間的適性を与えるのに驚くほど効果的であることを示す。
シミュレーションにおける完全アノテーションは、擬似アノテーション実画像の既存のアプローチよりも効果的であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:52:45Z) - Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。