論文の概要: Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies
- arxiv url: http://arxiv.org/abs/2602.01816v1
- Date: Mon, 02 Feb 2026 08:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.0192
- Title: Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies
- Title(参考訳): 信じているか? 視覚的錯覚と異常に基づく多モーダル大言語モデルのベンチマーク
- Authors: Wenjin Hou, Wei Liu, Han Hu, Xiaoxiao Sun, Serena Yeung-Levy, Hehe Fan,
- Abstract要約: 視覚錯覚と異常のモデル性能を探索するベンチマークであるVIA-Benchを紹介する。
我々は1K以上の高品質な問合せ対を構築し、微妙な視覚的推論を必要とする。
以上の結果から,知覚的ボトルネックの解消が人工知能の進歩に不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 40.03295633717008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown remarkable proficiency on general-purpose vision-language benchmarks, reaching or even exceeding human-level performance. However, these evaluations typically rely on standard in-distribution data, leaving the robustness of MLLMs largely unexamined when faced with scenarios that defy common-sense priors. To address this gap, we introduce VIA-Bench, a challenging benchmark designed to probe model performance on visual illusions and anomalies. It includes six core categories: color illusions, motion illusions, gestalt illusions, geometric and spatial illusions, general visual illusions, and visual anomalies. Through careful human-in-the-loop review, we construct over 1K high-quality question-answer pairs that require nuanced visual reasoning. Extensive evaluation of over 20 state-of-the-art MLLMs, including proprietary, open-source, and reasoning-enhanced models, uncovers significant vulnerabilities. Notably, we find that Chain-of-Thought (CoT) reasoning offers negligible robustness, often yielding ``brittle mirages'' where the model's logic collapses under illusory stimuli. Our findings reveal a fundamental divergence between machine and human perception, suggesting that resolving such perceptual bottlenecks is critical for the advancement of artificial general intelligence. The benchmark data and code will be released.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、汎用視覚言語ベンチマークにおいて、人間レベルのパフォーマンスに到達または超越した性能を示す。
しかし、これらの評価は一般的に標準的な流通データに依存しており、MLLMの頑健さは、常識に反するシナリオに直面した場合、ほとんど検討されていない。
このギャップに対処するために、視覚錯覚と異常に関するモデル性能を調査するための挑戦的なベンチマークであるVIA-Benchを紹介する。
カラー・イリュージョン、モーション・イリュージョン、ゲガルト・イリュージョン、幾何学的・空間的イリュージョン、一般的な視覚的イリュージョン、視覚異常の6つの中核カテゴリが含まれる。
注意深いヒューマン・イン・ザ・ループ・レビューを通じて、1K以上の高品質な質問応答対を構築し、微妙な視覚的推論を必要とする。
プロプライエタリ、オープンソース、推論強化モデルを含む20以上の最先端MLLMの大規模な評価により、重大な脆弱性が明らかになった。
特に、Chain-of-Thought(CoT)推論は無視できるロバスト性を提供し、しばしば '`brittle mirages' をもたらす。
以上の結果から,知覚的ボトルネックの解消が人工知能の進歩に不可欠であることが示唆された。
ベンチマークデータとコードがリリースされる。
関連論文リスト
- PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - Beyond the Visible: Benchmarking Occlusion Perception in Multimodal Large Language Models [17.922450921582794]
咬合知覚は、人間レベルの空間的理解にとって重要な基礎である。
我々は,オクルージョン知覚に特化して設計された最初の視覚的質問応答(VQA)ベンチマークであるO-Benchを紹介する。
論文 参考訳(メタデータ) (2025-08-06T03:39:21Z) - SpatialViz-Bench: An MLLM Benchmark for Spatial Visualization [44.427830927596204]
SpaceViz-Benchは4つのサブ能力にまたがる12のタスクを持つ空間視覚化のための総合的なベンチマークである。
33種類の最先端MLLMを評価した結果,多彩な性能の変動がみられ,反直感的な結果が得られた。
論文 参考訳(メタデータ) (2025-07-10T10:27:20Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。