Fugu-MT 論文翻訳(概要): Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

論文の概要: Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

arxiv url: http://arxiv.org/abs/2604.16054v1
Date: Fri, 17 Apr 2026 13:29:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-20 22:00:19.933926
Title: Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs
Title（参考訳）: Mind's Eye:マルチモーダルLLMのための視覚的抽象化、変換、構成のベンチマーク
Authors: Rohit Sinha, Aditya Kanade, Sai Srinivas Kancheti, Vineeth N Balasubramanian, Tanuja Ganu,
Abstract要約: 我々は,古典的な人間の知能テストに触発された8つの視覚認知タスクのベンチマークである"Mind's Eye"を紹介する。タスクは、パターン誘導、アナログ関係マッピング、メンタルトランスフォーメーションなどの流体インテリジェンスのコアプロセスを探索する。人間は80%の精度を達成し、トップパフォーマンスのMLLMは50%以下にとどまる。
参考スコア（独自算出の注目度）: 31.411469692692766
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) have achieved impressive progress on vision language benchmarks, yet their capacity for visual cognitive and visuospatial reasoning remains less understood. We introduce "Mind's Eye", a multiple-choice benchmark of eight visuo-cognitive tasks inspired by classic human intelligence tests and organized under a novel "A-R-T" taxonomy: Abstraction, Relation, and Transformation. The tasks probe core processes of fluid intelligence such as pattern induction, analogical relation mapping, and mental transformation. We evaluate a diverse suite of closed-source and open-source MLLMs and compare their performance with human participants. Humans achieve 80% accuracy, while top performing MLLMs remain below 50%. Error analysis reveals failures in: (i) visual attention allocation, (ii) internal perceptual manipulation, and (iii) weak abstraction of underlying visual concepts. Our findings suggest that current MLLMs exhibit limited visuospatial reasoning capabilities, when compared with human participants, highlighting the need for more cognitively grounded evaluation frameworks.
Abstract（参考訳）: マルチモーダルな大規模言語モデル (MLLM) は視覚言語ベンチマークにおいて顕著な進歩を遂げているが、視覚認知や空間的推論の能力はいまだにあまり理解されていない。我々は、古典的な人間の知能テストに触発され、新しい「A-R-T」分類(抽象、関係、変換)の下で組織された8つのビジュオ認知タスクの多重選択ベンチマークである「Mind's Eye」を紹介した。タスクは、パターン誘導、アナログ関係マッピング、メンタルトランスフォーメーションなどの流体インテリジェンスのコアプロセスを探索する。我々は,クローズドソースおよびオープンソースMLLMの多種多様なスイートを評価し,その性能を人間の参加者と比較した。人間は80%の精度を達成し、トップパフォーマンスのMLLMは50%以下にとどまる。エラー分析は失敗を明らかにする: (i)視覚的注意割当 (二)内的知覚操作、及び (三)根底にある視覚概念の弱い抽象化。以上の結果から,現在のMLLMは,ヒトと比較して視覚空間的推論能力に限界があることが示唆された。

関連論文リスト

Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文参考訳（メタデータ） (2026-02-02T02:19:50Z)
11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis [54.24689751375923]
本研究では,最先端MLLMの空間的推論能力を評価するためのシステム評価フレームワークを提案する。 14個のMLLMの実験と人間の評価により、現在のMLLMは空間認知の早期の兆候を示すことが明らかとなった。これらの知見は,現在のMLLMの空間的推論能力の出現能力と限界の両方を浮き彫りにしている。
論文参考訳（メタデータ） (2025-08-27T17:22:34Z)
Pixels, Patterns, but No Poetry: To See The World like Humans [33.773551676022514]
最先端のMLLMは、人間にとって簡単な私たちの知覚上のタスクに破滅的な失敗を示します。この論文は、推論から知覚へと焦点を移す。
論文参考訳（メタデータ） (2025-07-21T21:50:16Z)
Hyperphantasia: A Benchmark for Evaluating the Mental Visualization Capabilities of Multimodal LLMs [22.46006112029019]
メンタル・ヴィジュアライゼーションは人間にとって重要な認知能力であり、空間ナビゲーション、物理的な軌道予測、想像的シミュレーションによる複雑な視覚問題の解決などの能力をサポートする。マルチモーダル大規模言語モデル (MLLM) の心的可視化能力を評価するために, 慎重に構築された4つのパズルを用いて, ハイパーファンタジア(Hyperphantasia)を提案する。我々の最先端モデルに対する包括的評価は、人間とMLLMの性能の間に大きなギャップがあることを示唆している。
論文参考訳（メタデータ） (2025-07-16T05:54:37Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。 GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
What is the Visual Cognition Gap between Humans and Multimodal LLMs? [63.81347276258992]
MLLM(Multimodal Large Language Models)の視覚認知能力を評価し,その性能を人間の視覚認知研究と比較した。我々の比較実験では、MLLMと人間の知能のギャップが明らかになっている。我々は,MaRs-VQAとQwen2-VCogベースラインモデルの公開が,人間の視覚認知能力を持つ次世代MLLMに向けて進展をもたらすと考えている。
論文参考訳（メタデータ） (2024-06-14T22:02:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。