論文の概要: Visual serial processing deficits explain divergences in human and VLM reasoning
- arxiv url: http://arxiv.org/abs/2509.25142v1
- Date: Mon, 29 Sep 2025 17:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.189051
- Title: Visual serial processing deficits explain divergences in human and VLM reasoning
- Title(参考訳): 視覚的連続処理障害はヒトとVLM推論の相違を説明する
- Authors: Nicholas Budny, Kia Ghods, Declan Campbell, Raja Marjieh, Amogh Joshi, Sreejan Kumar, Jonathan D. Cohen, Taylor W. Webb, Thomas L. Griffiths,
- Abstract要約: 視覚言語モデル(VLM)は、単純な視覚的推論タスクにおいて、人間のパフォーマンスにマッチしないことが多い。
我々は、シリアル処理の要求に応じて、タスク間で人間とVLMのパフォーマンスを比較した。
タスクがより要求されるシリアル処理を必要とするため、VLMと人間のパフォーマンスギャップは確実に広がる。
- 参考スコア(独自算出の注目度): 12.872672625959716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why do Vision Language Models (VLMs), despite success on standard benchmarks, often fail to match human performance on surprisingly simple visual reasoning tasks? While the underlying computational principles are still debated, we hypothesize that a crucial factor is a deficit in visually-grounded serial processing. To test this hypothesis, we compared human and VLM performance across tasks designed to vary serial processing demands in three distinct domains: geometric reasoning, perceptual enumeration, and mental rotation. Tasks within each domain varied serial processing load by manipulating factors such as geometric concept complexity, perceptual individuation load, and transformation difficulty. Across all domains, our results revealed a consistent pattern: decreased VLM accuracy was strongly correlated with increased human reaction time (used as a proxy for serial processing load). As tasks require more demanding serial processing -- whether composing concepts, enumerating items, or performing mental transformations -- the VLM-human performance gap widens reliably. These findings support our hypothesis, indicating that limitations in serial, visually grounded reasoning represent a fundamental bottleneck that distinguishes current VLMs from humans.
- Abstract(参考訳): なぜビジョン言語モデル(VLM)は、標準ベンチマークの成功にもかかわらず、驚くほど単純な視覚的推論タスクにおいて、人間のパフォーマンスにマッチしないのか?
根底にある計算原理はいまだに議論されているが、我々は重要な要素が視覚的に接地されたシリアル処理の欠陥であるという仮説を立てている。
この仮説を検証するために、幾何学的推論、知覚列挙、心的回転という3つの異なる領域において、シリアル処理要求の変化を考慮に入れたタスク間で人間とVLMのパフォーマンスを比較した。
各領域内のタスクは、幾何学的概念複雑性、知覚的識別負荷、変換困難といった要素を操作することで、シリアル処理負荷を変化させた。
VLMの精度の低下は、人間の反応時間の増加(シリアル処理負荷のプロキシとして使用される)と強く相関していた。
タスクは、概念の作成、アイテムの列挙、メンタルトランスフォーメーションの実行など、より要求の多いシリアル処理を必要とするため、VLMと人間のパフォーマンスギャップは確実に広がります。
これらの結果は,現在のVLMと人間を区別する基本的なボトルネックとして,連続的,視覚的根拠のある推論の限界が示唆される,という仮説を支持している。
関連論文リスト
- VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。
既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。
VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-08-06T03:07:05Z) - Reasoning Multimodal Large Language Model: Data Contamination and Dynamic Evaluation [9.434966074326056]
MLLM(Multimodal Large Language Models)は、視覚ベースのベンチマーク性能を示すが、真の一般化を隠蔽するデータ汚染リスクへの懸念が増大している。
静的ベンチマークを超えてMLLMの一般化を厳格に評価する新しい動的評価フレームワークを提案する。
シミュレーションテストデータ(極端汚染)の微調整はタスク固有の性能を大幅に向上させるが、全体的な一般化には悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2025-06-08T15:52:38Z) - Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT [24.085953089267772]
複雑な場面において,OpenAI o3 と GPT-4o が基本的な物理法則,空間的相互作用,因果的影響を把握できないことを示す。
我々は、視覚連鎖(CoT)レンズによる視覚的身体的推論を厳格に評価するベンチマークであるMVPBenchを紹介した。
最先端のMLLMでさえ、物理領域における視覚的推論精度の低下と画像テキストアライメントの弱さを示す。
論文 参考訳(メタデータ) (2025-05-30T03:48:59Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios [21.824319551526294]
複雑なVQAシナリオに対処するために,完全神経的反復並列機構(IPRM)を導入する。
IPRMの「イテレーティブ」は、個々の操作を動的に計算、保存、リコールするシナリオに対して、構成的なステップバイステップ推論を促進する。
その"並列(parallel)"は、異なる推論経路の同時探索を可能にし、相互に独立なオペレーションの実行をより堅牢で効率的なものにする。
論文 参考訳(メタデータ) (2024-11-20T23:39:54Z) - Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。
高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。
LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文 参考訳(メタデータ) (2024-10-07T05:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。