論文の概要: Losing the Plot: How VLM responses degrade on imperfect charts
- arxiv url: http://arxiv.org/abs/2509.18425v1
- Date: Mon, 22 Sep 2025 21:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.591324
- Title: Losing the Plot: How VLM responses degrade on imperfect charts
- Title(参考訳): スロットの喪失:不完全なチャート上でのVLM応答の劣化
- Authors: Philip Wootaek Shin, Jack Sampson, Vijaykrishnan Narayanan, Andres Marquez, Mahantesh Halappanavar,
- Abstract要約: 視覚言語モデル(VLM)は、チャート理解において強力な結果を示すが、既存のベンチマークでは、明確な数字と事実に基づくクエリを仮定している。
我々はChatGPT 4o, Claude Sonnet 4, Gemini 2.5 Proを評価し, 汚損や隠蔽下での急激な性能低下を見出した。
重要なイノベーションは、モデルが同じ声明を確認または否定するよう求められたときに矛盾する、逆の矛盾を早急に起こすことだ。
- 参考スコア(独自算出の注目度): 11.071294641688496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) show strong results on chart understanding, yet existing benchmarks assume clean figures and fact based queries. Real world charts often contain distortions and demand reasoning beyond simple matching. We evaluate ChatGPT 4o, Claude Sonnet 4, and Gemini 2.5 Pro, finding sharp performance drops under corruption or occlusion, with hallucinations such as value fabrication, trend misinterpretation, and entity confusion becoming more frequent. Models remain overconfident in degraded settings, generating plausible but unsupported explanations. To address this gap, we introduce CHART NOISe(Chart Hallucinations, Answers, and Reasoning Testing on Noisy and Occluded Input Selections), a dataset combining chart corruptions, occlusions, and exam style multiple choice questions inspired by Korea's CSAT English section. A key innovation is prompt reverse inconsistency, where models contradict themselves when asked to confirm versus deny the same statement. Our contributions are threefold: (1) benchmarking state of the art VLMs, exposing systematic vulnerabilities in chart reasoning; (2) releasing CHART NOISe, the first dataset unifying corruption, occlusion, and reverse inconsistency; and (3) proposing baseline mitigation strategies such as quality filtering and occlusion detection. Together, these efforts establish a rigorous testbed for advancing robustness and reliability in chart understanding.
- Abstract(参考訳): 視覚言語モデル(VLM)は、チャート理解において強力な結果を示すが、既存のベンチマークでは、明確な数字と事実に基づくクエリを仮定している。
実世界のチャートは、単純なマッチング以上の歪みや需要推論を含むことが多い。
そこで我々はChatGPT 4o, Claude Sonnet 4, Gemini 2.5 Proを評価し, 価値形成, 傾向解釈, 実体混乱などの幻覚を伴って, 汚職や隠蔽下での急激な性能低下を見出した。
モデルは、劣化した設定において過度に信頼され、もっともらしいが、容認できない説明を生み出している。
このギャップに対処するために、韓国のCSAT英語セクションに触発されたチャートの破損、閉塞、試験スタイルを組み合わせたデータセットCHART NOISe(Chart Hallucinations, Answers, and Reasoning Testing on Noisy and Occluded Input Selections)を紹介する。
重要なイノベーションは、モデルが同じ声明を確認または否定するよう求められたときに矛盾する、逆の矛盾を早急に起こすことだ。
筆者らのコントリビューションは,(1)最先端のVLMのベンチマーク,チャート推論における系統的脆弱性の露呈,2)CHART NOISeのリリース,(2)汚職,隠蔽,逆不整合を統一する最初のデータセット,(3)品質フィルタリングや隠蔽検出などのベースライン緩和戦略の提案である。
これらの取り組みは、チャート理解における堅牢性と信頼性を向上するための厳密なテストベッドを確立する。
関連論文リスト
- Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large
Language Models [35.088946378980914]
我々は3つの最先端チャットLLM(GPT3.5、GPT4、Llama2-chat)上でベンチマークを実行する。
これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。
エラーは、チェーン・オブ・コンテクストのプロンプトやイン・コンテクストの学習でも継続する。
論文 参考訳(メタデータ) (2023-11-27T15:38:17Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Rethinking Explaining Graph Neural Networks via Non-parametric Subgraph
Matching [68.35685422301613]
そこで我々はMatchExplainerと呼ばれる新しい非パラメトリックな部分グラフマッチングフレームワークを提案し、説明的部分グラフを探索する。
ターゲットグラフと他のインスタンスを結合し、ノードに対応する距離を最小化することで最も重要な結合部分構造を識別する。
合成および実世界のデータセットの実験は、最先端のパラメトリックベースラインをかなりのマージンで上回り、MatchExplainerの有効性を示す。
論文 参考訳(メタデータ) (2023-01-07T05:14:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。