論文の概要: Chimera: Diagnosing Shortcut Learning in Visual-Language Understanding
- arxiv url: http://arxiv.org/abs/2509.22437v1
- Date: Fri, 26 Sep 2025 14:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.522023
- Title: Chimera: Diagnosing Shortcut Learning in Visual-Language Understanding
- Title(参考訳): Chimera: 視覚言語理解におけるショートカット学習の診断
- Authors: Ziheng Chi, Yifan Hou, Chenxi Pang, Shaobo Cui, Mubashara Akhtar, Mrinmaya Sachan,
- Abstract要約: ウィキペディアから得られた7,500の高品質な図からなるテストスイートであるChimeraを紹介する。
各ダイアグラムは、その象徴的な内容が意味的な三重項で表され、多段階の質問とともに注釈付けされる。
視覚的質問応答における3種類のショートカットの存在を測定するために,チメラを用いている。
- 参考スコア(独自算出の注目度): 44.53837800796001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diagrams convey symbolic information in a visual format rather than a linear stream of words, making them especially challenging for AI models to process. While recent evaluations suggest that vision-language models (VLMs) perform well on diagram-related benchmarks, their reliance on knowledge, reasoning, or modality shortcuts raises concerns about whether they genuinely understand and reason over diagrams. To address this gap, we introduce Chimera, a comprehensive test suite comprising 7,500 high-quality diagrams sourced from Wikipedia; each diagram is annotated with its symbolic content represented by semantic triples along with multi-level questions designed to assess four fundamental aspects of diagram comprehension: entity recognition, relation understanding, knowledge grounding, and visual reasoning. We use Chimera to measure the presence of three types of shortcuts in visual question answering: (1) the visual-memorization shortcut, where VLMs rely on memorized visual patterns; (2) the knowledge-recall shortcut, where models leverage memorized factual knowledge instead of interpreting the diagram; and (3) the Clever-Hans shortcut, where models exploit superficial language patterns or priors without true comprehension. We evaluate 15 open-source VLMs from 7 model families on Chimera and find that their seemingly strong performance largely stems from shortcut behaviors: visual-memorization shortcuts have slight impact, knowledge-recall shortcuts play a moderate role, and Clever-Hans shortcuts contribute significantly. These findings expose critical limitations in current VLMs and underscore the need for more robust evaluation protocols that benchmark genuine comprehension of complex visual inputs (e.g., diagrams) rather than question-answering shortcuts.
- Abstract(参考訳): ダイアグラムは、単語の線形ストリームではなく、視覚的な形式でシンボル情報を伝達する。
最近の評価では、視覚言語モデル(VLM)は図関連のベンチマークでうまく機能するが、知識、推論、モダリティのショートカットに依存しているため、図を真に理解し、理性するかどうかが懸念される。
このギャップに対処するために、ウィキペディアから得られた7,500の高品質な図からなる総合的なテストスイートであるChimeraを紹介します。各図には、意味的な三重項で表される象徴的な内容と、ダイアグラム理解の4つの基本的な側面(エンティティ認識、関係理解、知識基盤、視覚的推論)を評価するために設計された多段階の質問がアノテートされます。
1)VLMが記憶された視覚パターンに依存する視覚記憶ショートカット,(2)モデルが図を解釈する代わりに記憶された事実知識を活用する知識記憶ショートカット,(3)モデルが真に理解せずに表面的な言語パターンや先行を活用できるクレバー・ハンスショートカット,である。
我々はキメラの7つのモデルファミリーから15個のオープンソースVLMを評価し、その顕著な性能はショートカットの挙動に大きく影響していることを見出した。
これらの結果は、現在のVLMにおいて重要な制限を明らかにし、質問応答ショートカットではなく、複雑な視覚入力(例えば図)の真の理解をベンチマークする、より堅牢な評価プロトコルの必要性を強調している。
関連論文リスト
- ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding [18.67532755744138]
チャートの自動理解は、既存のマルチモーダルな大規模言語モデルに重大な課題をもたらす。
現在のステップバイステップ推論モデルは、主にチャート理解のためのテキストベースの論理的推論に焦点を当てている。
マルチモーダルフィードバック駆動のステップバイステップ推論手法であるChartSketcherを提案する。
論文 参考訳(メタデータ) (2025-05-25T10:21:29Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation [19.4261670152456]
モデルが補助線,点,角などの視覚的キーポイントを識別できるかどうかを評価し,これらのキー要素を組み込んだ説明を生成するためのマルチモーダルソリューション説明タスクを提案する。
我々の経験的結果は、最近の大規模オープンソースおよびクローズドソースモデル、ほとんどの一般オープンソースモデル、数学特殊主義モデルを除いて、マルチモーダルソリューションの説明タスクに苦戦していることを示している。
このことは、現在のLLMの教育的文脈における視覚的基盤による推論と説明能力において、大きなギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-04-04T06:03:13Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [64.32993770646165]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率,スケーラブルなデータ合成手法であるCode-as-Intermediary Translation (CIT)を提案する。
ReachQAは、MLLMの認識と推論能力を高めるために、3kの推論集約チャートと20kのQ&Aペアを含むデータセットである。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - Do Vision-Language Models Really Understand Visual Language? [43.893398898373995]
ダイアグラムは、複雑な概念とその関係をイメージとして表現した視覚言語の典型例である。
近年の研究では、LVLM(Large Vision-Language Models)が図を含む複雑な推論タスクに対処できることが示唆されている。
本稿では,LVLMのダイアグラム理解能力を評価するための総合的なテストスイートを開発する。
論文 参考訳(メタデータ) (2024-09-30T19:45:11Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Why Machine Reading Comprehension Models Learn Shortcuts? [56.629192589376046]
トレーニングデータにおけるショートカットの質問の大部分が、モデルが過度にショートカットのトリックに依存している、と私たちは主張する。
徹底的な実証分析により、MRCモデルは挑戦的な質問よりも早くショートカットの質問を学習する傾向が示されている。
論文 参考訳(メタデータ) (2021-06-02T08:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。