論文の概要: BabyVision: Visual Reasoning Beyond Language
- arxiv url: http://arxiv.org/abs/2601.06521v1
- Date: Sat, 10 Jan 2026 10:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.859532
- Title: BabyVision: Visual Reasoning Beyond Language
- Title(参考訳): BabyVision: 言語を越えたビジュアル推論
- Authors: Liang Chen, Weichu Xie, Yiyan Liang, Hongfeng He, Hans Zhao, Zhibo Yang, Zhiqi Huang, Haoning Wu, Haoyu Lu, Y. charles, Yiping Bao, Yuantao Fan, Guopeng Li, Haiyang Shen, Xuanzhong Chen, Wendong Xu, Shuzheng Si, Zefan Cai, Wenhao Chai, Ziqi Huang, Fangfu Liu, Tianyu Liu, Baobao Chang, Xiaobo Hu, Kaiyuan Chen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li,
- Abstract要約: 言語知識に依存しないコア視覚能力を評価するためのベンチマークであるBabyVisionを紹介する。
実験結果と人的評価により, MLLMはヒトのベースラインより有意に低い性能を示した。
Gemini3-Pro-Previewのスコアは49.7で、6歳の人間に遅れ、成人の平均スコア94.1にかなり遅れている。
- 参考スコア(独自算出の注目度): 60.43605497226761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While humans develop core visual skills long before acquiring language, contemporary Multimodal LLMs (MLLMs) still rely heavily on linguistic priors to compensate for their fragile visual understanding. We uncovered a crucial fact: state-of-the-art MLLMs consistently fail on basic visual tasks that humans, even 3-year-olds, can solve effortlessly. To systematically investigate this gap, we introduce BabyVision, a benchmark designed to assess core visual abilities independent of linguistic knowledge for MLLMs. BabyVision spans a wide range of tasks, with 388 items divided into 22 subclasses across four key categories. Empirical results and human evaluation reveal that leading MLLMs perform significantly below human baselines. Gemini3-Pro-Preview scores 49.7, lagging behind 6-year-old humans and falling well behind the average adult score of 94.1. These results show despite excelling in knowledge-heavy evaluations, current MLLMs still lack fundamental visual primitives. Progress in BabyVision represents a step toward human-level visual perception and reasoning capabilities. We also explore solving visual reasoning with generation models by proposing BabyVision-Gen and automatic evaluation toolkit. Our code and benchmark data are released at https://github.com/UniPat-AI/BabyVision for reproduction.
- Abstract(参考訳): 人間は言語習得のずっと前にコアビジュアルスキルを発達させるが、現代のマルチモーダルLLM(MLLM)は、脆弱な視覚的理解を補うために言語的先行に大きく依存している。
最先端のMLLMは、人間や3歳児でさえも、無力で解決できる基本的な視覚的タスクで一貫して失敗します。
このギャップを体系的に調査するために,MLLMの言語知識に依存しないコア視覚能力を評価するベンチマークであるBabyVisionを紹介する。
BabyVisionは幅広いタスクにまたがっており、388項目は4つの主要なカテゴリで22のサブクラスに分けられる。
実験結果と人的評価により, MLLMはヒトのベースラインより有意に低い性能を示した。
Gemini3-Pro-Previewのスコアは49.7で、6歳の人間に遅れ、成人の平均スコア94.1にかなり遅れている。
これらの結果は知識量評価に優れているにもかかわらず、現在のMLLMは基本的な視覚的プリミティブを欠いていることを示している。
BabyVisionの進歩は、人間のレベルの視覚知覚と推論能力への一歩である。
また、BabyVision-Genと自動評価ツールキットの提案により、生成モデルによる視覚的推論の解決についても検討する。
私たちのコードとベンチマークデータは、再現のためにhttps://github.com/UniPat-AI/BabyVisionでリリースされます。
関連論文リスト
- VKnowU: Evaluating Visual Knowledge Understanding in Multimodal LLMs [35.79620808899466]
視覚知識は知覚と推論の間に橋渡しを形成する。
23個のSOTA MLLMの評価は、主要なモデルがまだ人間のパフォーマンスに欠けていることを明らかにしている。
MLLMに視覚知識を明示的に組み込むベースラインモデルとして,新たなデータセットであるVKnowQAとVideoKnow+を導入する。
論文 参考訳(メタデータ) (2025-11-25T12:58:32Z) - Pixels, Patterns, but No Poetry: To See The World like Humans [33.773551676022514]
最先端のMLLMは、人間にとって簡単な私たちの知覚上のタスクに破滅的な失敗を示します。
この論文は、推論から知覚へと焦点を移す。
論文 参考訳(メタデータ) (2025-07-21T21:50:16Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Do Multimodal Large Language Models See Like Humans? [50.938168841711445]
MLLM(Multimodal Large Language Models)は、様々なビジョンタスクにおいて、近年の大規模言語モデルの進歩を活用して、印象的な成果を上げている。
現在のベンチマークでは、この観点からMLLMを評価する能力がない。
MLLMと人間の視覚システムとの整合性を評価するための大規模ベンチマークであるHVSBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-12T18:59:25Z) - Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-06-24T17:52:16Z) - What is the Visual Cognition Gap between Humans and Multimodal LLMs? [63.81347276258992]
MLLM(Multimodal Large Language Models)の視覚認知能力を評価し,その性能を人間の視覚認知研究と比較した。
我々の比較実験では、MLLMと人間の知能のギャップが明らかになっている。
我々は,MaRs-VQAとQwen2-VCogベースラインモデルの公開が,人間の視覚認知能力を持つ次世代MLLMに向けて進展をもたらすと考えている。
論文 参考訳(メタデータ) (2024-06-14T22:02:21Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。