論文の概要: Defining and Evaluating Visual Language Models' Basic Spatial Abilities: A Perspective from Psychometrics
- arxiv url: http://arxiv.org/abs/2502.11859v1
- Date: Mon, 17 Feb 2025 14:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:45.337606
- Title: Defining and Evaluating Visual Language Models' Basic Spatial Abilities: A Perspective from Psychometrics
- Title(参考訳): 視覚言語モデルの基本空間能力の定義と評価 : 心理学的視点から
- Authors: Wenrui Xu, Dalin Lyu, Weihang Wang, Jie Feng, Chen Gao, Yong Li,
- Abstract要約: 視覚言語モデル(VLM)における5つの基本空間能力(BSA)を定義する心理測定の枠組みを開拓する。
13の主流VLMのベンチマークでは、人間との大きなギャップが明らかになった(平均スコアは24.95対68.38)
我々は,空間知能評価のための診断ツールキット,具体的AI開発のための方法論基盤,および人間のような空間知能を達成するための認知科学インフォームドロードマップを提供する。
- 参考スコア(独自算出の注目度): 23.03586834085029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Theory of Multiple Intelligences underscores the hierarchical nature of cognitive capabilities. To advance Spatial Artificial Intelligence, we pioneer a psychometric framework defining five Basic Spatial Abilities (BSAs) in Visual Language Models (VLMs): Spatial Perception, Spatial Relation, Spatial Orientation, Mental Rotation, and Spatial Visualization. Benchmarking 13 mainstream VLMs through nine validated psychometric experiments reveals significant gaps versus humans (average score 24.95 vs. 68.38), with three key findings: 1) VLMs mirror human hierarchies (strongest in 2D orientation, weakest in 3D rotation) with independent BSAs (Pearson's r<0.4); 2) Smaller models such as Qwen2-VL-7B surpass larger counterparts, with Qwen leading (30.82) and InternVL2 lagging (19.6); 3) Interventions like chain-of-thought (0.100 accuracy gain) and 5-shot training (0.259 improvement) show limits from architectural constraints. Identified barriers include weak geometry encoding and missing dynamic simulation. By linking psychometric BSAs to VLM capabilities, we provide a diagnostic toolkit for spatial intelligence evaluation, methodological foundations for embodied AI development, and a cognitive science-informed roadmap for achieving human-like spatial intelligence.
- Abstract(参考訳): マルチ・インテリジェンスの理論は認知能力の階層的な性質を強調している。
本研究では,視覚言語モデル(VLM)における5つの基本空間能力(BSA)を定義し,空間知覚,空間関係,空間指向,精神回転,空間可視化という心理測定の枠組みを開拓した。
13の主流VLMを9つの検証された心理測定実験でベンチマークした結果、人間との大きな差(平均スコア24.95対68.38)が示され、3つの重要な発見がある。
1)VLMは、独立したBSA(Pearson's r<0.4)でヒトの階層をミラーする。
2) Qwenリード(30.82)やインターンVL2ラグ(19.6)など、より小型のQwen2-VL-7Bはより大きなモデルを上回る。
同定された障壁には、弱い幾何学的エンコーディングと欠落した動的シミュレーションが含まれる。
心理測定BSAをVLM能力にリンクすることにより、空間知能評価のための診断ツールキット、具体的AI開発のための方法論基盤、人間のような空間知能を達成するための認知科学インフォームドロードマップを提供する。
関連論文リスト
- Beyond the Visible: Benchmarking Occlusion Perception in Multimodal Large Language Models [17.922450921582794]
咬合知覚は、人間レベルの空間的理解にとって重要な基礎である。
我々は,オクルージョン知覚に特化して設計された最初の視覚的質問応答(VQA)ベンチマークであるO-Benchを紹介する。
論文 参考訳(メタデータ) (2025-08-06T03:39:21Z) - Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology [87.65242416688146]
TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。
TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
論文 参考訳(メタデータ) (2025-07-10T17:59:58Z) - Spatial Mental Modeling from Limited Views [71.57140964322559]
新しいMindCubeベンチマークでは、3,268枚の画像に21,154件の質問があった。
MindCubeを用いて、視覚言語モデル(VLM)がいかに堅牢な空間精神モデルを構築するかを評価する。
次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
論文 参考訳(メタデータ) (2025-06-26T16:38:19Z) - PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly [77.33429729761596]
物理理解と計画について視覚言語モデル(VLM)を評価するためのプログレッシブベンチマークであるPhyBlockを紹介する。
PhyBlockは、視覚質問回答(VQA)サンプルと並行して、新しい4段階の認知階層化タスクを統合する。
我々は21の最先端のVLMをベンチマークし、物理的に基盤化されたマルチステップ計画におけるその強みと限界を強調した。
論文 参考訳(メタデータ) (2025-06-10T11:46:06Z) - OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models [21.311740507694143]
認知心理学に基づく空間的推論のベンチマークであるOmniSpatialを紹介する。
インターネットデータクローリングと手作業による注意深いアノテーションにより,1.5K以上の質問応答ペアを構築した。
論文 参考訳(メタデータ) (2025-06-03T17:58:29Z) - MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence [50.38961770108891]
MMSI-Benchは、マルチイメージ空間インテリジェンスに特化したVQAベンチマークである。
我々は、大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価する。
最も強力なオープンソースモデルはおよそ30%の精度に達し、OpenAIのo3推論モデルは40%に達し、人間は97%である。
論文 参考訳(メタデータ) (2025-05-29T17:59:52Z) - Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [6.569837864665502]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Vision Language Models See What You Want but not What You See [9.268588981925234]
他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素である。
このような能力を持つ機械を浸透させることは、人間レベルの人工知能を構築するための重要なステップである。
視覚言語モデルにおける意図理解とレベル2視点抽出について検討した。
論文 参考訳(メタデータ) (2024-10-01T01:52:01Z) - SpatialBot: Precise Spatial Understanding with Vision Language Models [12.67089704185187]
視覚言語モデル (VLM) は2次元画像理解において優れた性能を発揮している。
彼らはまだ、Embodied AIの基盤である空間的理解に苦戦している。
本稿では,RGB画像と深度画像の両方をフィードすることで,空間的理解を向上させるためのSpatialBotを提案する。
論文 参考訳(メタデータ) (2024-06-19T15:41:30Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - Reliability Analysis of Psychological Concept Extraction and
Classification in User-penned Text [9.26840677406494]
私たちはLoSTデータセットを使って、Redditユーザーの投稿に低い自尊心があることを示唆するニュアンスのあるテキストキューをキャプチャします。
以上の結果から, PLM の焦点を Trigger と Consequences からより包括的な説明に移行する必要性が示唆された。
論文 参考訳(メタデータ) (2024-01-12T17:19:14Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - What's "up" with vision-language models? Investigating their struggle
with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文 参考訳(メタデータ) (2023-10-30T17:50:15Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。