論文の概要: Defining and Evaluating Visual Language Models' Basic Spatial Abilities: A Perspective from Psychometrics
- arxiv url: http://arxiv.org/abs/2502.11859v2
- Date: Thu, 20 Feb 2025 07:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:38.164657
- Title: Defining and Evaluating Visual Language Models' Basic Spatial Abilities: A Perspective from Psychometrics
- Title(参考訳): 視覚言語モデルの基本空間能力の定義と評価 : 心理学的視点から
- Authors: Wenrui Xu, Dalin Lyu, Weihang Wang, Jie Feng, Chen Gao, Yong Li,
- Abstract要約: 視覚言語モデル(VLM)における5つの基本空間能力(BSA)を定義する心理測定の枠組みを開拓する。
13の主流VLMのベンチマークでは、人間との大きなギャップが明らかになった(平均スコアは24.95対68.38)
我々は,空間知能評価のための診断ツールキット,具体的AI開発のための方法論基盤,および人間のような空間知能を達成するための認知科学インフォームドロードマップを提供する。
- 参考スコア(独自算出の注目度): 23.03586834085029
- License:
- Abstract: The Theory of Multiple Intelligences underscores the hierarchical nature of cognitive capabilities. To advance Spatial Artificial Intelligence, we pioneer a psychometric framework defining five Basic Spatial Abilities (BSAs) in Visual Language Models (VLMs): Spatial Perception, Spatial Relation, Spatial Orientation, Mental Rotation, and Spatial Visualization. Benchmarking 13 mainstream VLMs through nine validated psychometric experiments reveals significant gaps versus humans (average score 24.95 vs. 68.38), with three key findings: 1) VLMs mirror human hierarchies (strongest in 2D orientation, weakest in 3D rotation) with independent BSAs (Pearson's r<0.4); 2) Smaller models such as Qwen2-VL-7B surpass larger counterparts, with Qwen leading (30.82) and InternVL2 lagging (19.6); 3) Interventions like chain-of-thought (0.100 accuracy gain) and 5-shot training (0.259 improvement) show limits from architectural constraints. Identified barriers include weak geometry encoding and missing dynamic simulation. By linking psychometric BSAs to VLM capabilities, we provide a diagnostic toolkit for spatial intelligence evaluation, methodological foundations for embodied AI development, and a cognitive science-informed roadmap for achieving human-like spatial intelligence.
- Abstract(参考訳): マルチ・インテリジェンスの理論は認知能力の階層的な性質を強調している。
本研究では,視覚言語モデル(VLM)における5つの基本空間能力(BSA)を定義し,空間知覚,空間関係,空間指向,精神回転,空間可視化という心理測定の枠組みを開拓した。
13の主流VLMを9つの検証された心理測定実験でベンチマークした結果、人間との大きな差(平均スコア24.95対68.38)が示され、3つの重要な発見がある。
1)VLMは、独立したBSA(Pearson's r<0.4)でヒトの階層をミラーする。
2) Qwenリード(30.82)やインターンVL2ラグ(19.6)など、より小型のQwen2-VL-7Bはより大きなモデルを上回る。
同定された障壁には、弱い幾何学的エンコーディングと欠落した動的シミュレーションが含まれる。
心理測定BSAをVLM能力にリンクすることにより、空間知能評価のための診断ツールキット、具体的AI開発のための方法論基盤、人間のような空間知能を達成するための認知科学インフォームドロードマップを提供する。
関連論文リスト
- Constructive Apraxia: An Unexpected Limit of Instructible Vision-Language Models and Analog for Human Cognitive Disorders [0.0]
本研究は、視覚言語モデル(VLM)と人間の認知障害、特に建設的失語症との予期せぬ平行関係を明らかにする。
コンストラクティブ・アプラキシアの臨床的評価において,基本的空間推論を必要とするポンゾイリュージョンの画像を生成する能力について,25種類の最先端のVLMを検証した。
注目すべきは、25モデル中24モデルが2本の水平線を視界の背景に対して正しくレンダリングできなかったことだ。
論文 参考訳(メタデータ) (2024-09-17T18:46:57Z) - SpatialBot: Precise Spatial Understanding with Vision Language Models [12.67089704185187]
視覚言語モデル (VLM) は2次元画像理解において優れた性能を発揮している。
彼らはまだ、Embodied AIの基盤である空間的理解に苦戦している。
本稿では,RGB画像と深度画像の両方をフィードすることで,空間的理解を向上させるためのSpatialBotを提案する。
論文 参考訳(メタデータ) (2024-06-19T15:41:30Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - Reliability Analysis of Psychological Concept Extraction and
Classification in User-penned Text [9.26840677406494]
私たちはLoSTデータセットを使って、Redditユーザーの投稿に低い自尊心があることを示唆するニュアンスのあるテキストキューをキャプチャします。
以上の結果から, PLM の焦点を Trigger と Consequences からより包括的な説明に移行する必要性が示唆された。
論文 参考訳(メタデータ) (2024-01-12T17:19:14Z) - Mental Health Diagnosis in the Digital Age: Harnessing Sentiment
Analysis on Social Media Platforms upon Ultra-Sparse Feature Content [3.6195994708545016]
3次元構造を持つ新しい意味的特徴前処理手法を提案する。
強化されたセマンティック機能により、精神障害を予測および分類するために機械学習モデルを訓練する。
提案手法は,7つのベンチマークモデルと比較して,大幅な性能向上を示した。
論文 参考訳(メタデータ) (2023-11-09T00:15:06Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - What's "up" with vision-language models? Investigating their struggle
with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文 参考訳(メタデータ) (2023-10-30T17:50:15Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。