論文の概要: Spatial Mental Modeling from Limited Views
- arxiv url: http://arxiv.org/abs/2506.21458v1
- Date: Thu, 26 Jun 2025 16:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.197342
- Title: Spatial Mental Modeling from Limited Views
- Title(参考訳): 限られた視点から見た空間的メンタルモデリング
- Authors: Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei,
- Abstract要約: 新しいMindCubeベンチマークでは、3,268枚の画像に21,154件の質問があった。
MindCubeを用いて、視覚言語モデル(VLM)がいかに堅牢な空間精神モデルを構築するかを評価する。
次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
- 参考スコア(独自算出の注目度): 71.57140964322559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can Vision Language Models (VLMs) imagine the full scene from just a few views, like humans do? Humans form spatial mental models, internal representations of unseen space, to reason about layout, perspective, and motion. Our new MindCube benchmark with 21,154 questions across 3,268 images exposes this critical gap, where existing VLMs exhibit near-random performance. Using MindCube, we systematically evaluate how well VLMs build robust spatial mental models through representing positions (cognitive mapping), orientations (perspective-taking), and dynamics (mental simulation for "what-if" movements). We then explore three approaches to help VLMs approximate spatial mental models, including unseen intermediate views, natural language reasoning chains, and cognitive maps. The significant improvement comes from a synergistic approach, "map-then-reason", that jointly trains the model to first generate a cognitive map and then reason upon it. By training models to reason over these internal maps, we boosted accuracy from 37.8% to 60.8% (+23.0%). Adding reinforcement learning pushed performance even further to 70.7% (+32.9%). Our key insight is that such scaffolding of spatial mental models, actively constructing and utilizing internal structured spatial representations with flexible reasoning processes, significantly improves understanding of unobservable space.
- Abstract(参考訳): 視覚言語モデル(VLM: Vision Language Models)は、人間のように、ほんの少しの視点から全体像を想像できるだろうか?
人間は空間的メンタルモデル、見えない空間の内部表現を形成し、レイアウト、視点、動きについて推論する。
新しいMindCubeベンチマークでは、3,268枚の画像に21,154の質問が寄せられ、既存のVLMがほぼランダムなパフォーマンスを示すという重要なギャップが明らかになりました。
MindCubeを用いて、VLMが位置(認知マッピング)、方向(視線撮影)、ダイナミックス(「何」運動のメンタルシミュレーション)を表現して、いかに堅牢な空間的メンタルモデルを構築するかを体系的に評価した。
次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
重要な改善は、まず認知地図を生成し、その上で推論するためにモデルを共同で訓練する"map-then-reason"というシナジスティックなアプローチによるものである。
これらの内部マップを推論するモデルをトレーニングすることで、精度を37.8%から60.8%(+23.0%)に向上しました。
強化学習を追加することでパフォーマンスはさらに70.7%(+32.9%)に向上した。
我々の重要な洞察は、内部構造的空間表現をフレキシブルな推論プロセスで積極的に構築し、活用するこのような空間的メンタルモデルの足場が、観測不可能な空間の理解を著しく改善することである。
関連論文リスト
- Enhancing Spatial Reasoning through Visual and Textual Thinking [45.0026939683271]
空間的推論タスクは,2次元空間と3次元空間の空間的関係を推論することを目的としている。
近年,視覚言語モデル (VLM) は急速に発展してきたが,空間推論の課題に苦戦している。
視覚的思考とテキスト思考を同時に行うことによって空間的推論を向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T05:24:54Z) - MindJourney: Test-Time Scaling with World Models for Spatial Reasoning [82.46482433335535]
3次元空間における空間的推論は、人間の認知の中心であり、ナビゲーションや操作などの具体的タスクには不可欠である。
私たちはMindJourneyを提案します。これはテスト時のスケーリングフレームワークで、この不足した機能を備えたビジョン言語モデルを提供します。
我々は,代表的空間推論ベンチマークSATにおいて,MindJourneyが平均8%以上の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2025-07-16T17:59:36Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models [21.311740507694143]
認知心理学に基づく空間的推論のベンチマークであるOmniSpatialを紹介する。
インターネットデータクローリングと手作業による注意深いアノテーションにより,1.5K以上の質問応答ペアを構築した。
論文 参考訳(メタデータ) (2025-06-03T17:58:29Z) - Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [6.569837864665502]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces [34.809309396448654]
5000組以上の質問応答対からなるビデオベース視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。
MLLM(Multimodal Large Language Models)は,非人間的な視覚空間知能を持つ。
論文 参考訳(メタデータ) (2024-12-18T18:59:54Z) - SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models [78.06537464850538]
シミュレーションは,実画像に翻訳する空間的適性を与えるのに驚くほど効果的であることを示す。
シミュレーションにおける完全アノテーションは、擬似アノテーション実画像の既存のアプローチよりも効果的であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:52:45Z) - Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。