論文の概要: KidVis: Do Multimodal Large Language Models Possess the Visual Perceptual Capabilities of a 6-Year-Old?
- arxiv url: http://arxiv.org/abs/2601.08292v1
- Date: Tue, 13 Jan 2026 07:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.100955
- Title: KidVis: Do Multimodal Large Language Models Possess the Visual Perceptual Capabilities of a 6-Year-Old?
- Title(参考訳): KidVis: マルチモーダルな大規模言語モデルは6歳児の視覚的知覚能力を実現するか?
- Authors: Xianfeng Wang, Kaiwei Zhang, Qi Jia, Zijian Chen, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: 人間の視覚発達理論に基づく新しいベンチマークであるKidVisを紹介する。
人間の生理的ベースラインに対する20の最先端MLLMを評価すると、パフォーマンスの相違が明らかになる。
この研究は、現在のMLLMは、彼らの推論能力にもかかわらず、一般化された視覚知能に必要な生理的知覚的プリミティブが欠如していることを確認する。
- 参考スコア(独自算出の注目度): 79.27736230305516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have demonstrated impressive proficiency in high-level reasoning tasks, such as complex diagrammatic interpretation, it remains an open question whether they possess the fundamental visual primitives comparable to human intuition. To investigate this, we introduce KidVis, a novel benchmark grounded in the theory of human visual development. KidVis deconstructs visual intelligence into six atomic capabilities - Concentration, Tracking, Discrimination, Memory, Spatial, and Closure - already possessed by 6-7 year old children, comprising 10 categories of low-semantic-dependent visual tasks. Evaluating 20 state-of-the-art MLLMs against a human physiological baseline reveals a stark performance disparity. Results indicate that while human children achieve a near-perfect average score of 95.32, the state-of-the-art GPT-5 attains only 67.33. Crucially, we observe a "Scaling Law Paradox": simply increasing model parameters fails to yield linear improvements in these foundational visual capabilities. This study confirms that current MLLMs, despite their reasoning prowess, lack the essential physiological perceptual primitives required for generalized visual intelligence.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複雑な図形解釈のような高レベルの推論タスクにおいて、優れた習熟度を示してきたが、人間の直観に匹敵する基本的な視覚的プリミティブを持っているかどうかは、未解決のままである。
そこで本研究では,人間の視覚発達理論に基づく新しいベンチマークであるKidVisを紹介する。
KidVisは、視覚知能を6つの原子能力(集中、追跡、識別、記憶、空間、閉鎖)に分解する。
20種類の最先端MLLMをヒトの生理的基盤線に対して評価すると、性能の相違が明らかになる。
以上の結果から, ほぼ完全な平均スコアは95.32, 最先端のGPT-5は67.33であった。
モデルパラメータの増大は、これらの基本的な視覚能力に線形改善をもたらすのに失敗する。
この研究は、現在のMLLMは、彼らの推論能力にもかかわらず、一般化された視覚知能に必要な生理的知覚的プリミティブが欠如していることを確認する。
関連論文リスト
- BabyVision: Visual Reasoning Beyond Language [60.43605497226761]
言語知識に依存しないコア視覚能力を評価するためのベンチマークであるBabyVisionを紹介する。
実験結果と人的評価により, MLLMはヒトのベースラインより有意に低い性能を示した。
Gemini3-Pro-Previewのスコアは49.7で、6歳の人間に遅れ、成人の平均スコア94.1にかなり遅れている。
論文 参考訳(メタデータ) (2026-01-10T10:42:44Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Visual Language Models show widespread visual deficits on neuropsychological tests [0.0]
神経心理学のツールキットを用いて3つの最先端ビジュアル言語モデル(VLM)の能力を評価する。
臨床的に有意と思われる低位・中位の視覚能力に広範な欠陥がみられた。
これらの選択的欠陥は、検証されたテストバッテリーを通してプロファイルされ、人間には明示的な訓練を必要としない基礎的な視覚概念を発達させることなく、人工知能が複雑な物体認識を達成できることを示唆している。
論文 参考訳(メタデータ) (2025-04-15T01:04:56Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Core Knowledge Deficits in Multi-Modal Language Models [41.422258645731276]
MLLM(Multi-modal Large Language Models)は、ハイレベルな認識と推論よりも印象的な能力を示す。
しかし、野生での頑丈さは限定的であり、人間にとって直感的で努力の無い仕事では不足することが多い。
これらの欠陥は,幼少期から人間に根ざした,中核的な知識の欠如に起因する,という仮説を考察する。
論文 参考訳(メタデータ) (2024-10-06T20:13:11Z) - What is the Visual Cognition Gap between Humans and Multimodal LLMs? [63.81347276258992]
MLLM(Multimodal Large Language Models)の視覚認知能力を評価し,その性能を人間の視覚認知研究と比較した。
我々の比較実験では、MLLMと人間の知能のギャップが明らかになっている。
我々は,MaRs-VQAとQwen2-VCogベースラインモデルの公開が,人間の視覚認知能力を持つ次世代MLLMに向けて進展をもたらすと考えている。
論文 参考訳(メタデータ) (2024-06-14T22:02:21Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。