論文の概要: Disentangling Visual and Factual Correctness in LVLMs' Visualization Literacy
- arxiv url: http://arxiv.org/abs/2606.03142v1
- Date: Tue, 02 Jun 2026 04:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.762659
- Title: Disentangling Visual and Factual Correctness in LVLMs' Visualization Literacy
- Title(参考訳): LVLMの可視化リテラシーにおける視覚的・実的正当性の違い
- Authors: Soohyun Lee, Jaeyoung Kim, Seokhyeon Park, Sihyeon Lee, Jiwon Song, Bohyoung Kim, Hyunjoo Song, Jinwook Seo,
- Abstract要約: LVLM(Large Vision-Language Models)は、強力な可視化解釈を示す。
それらの反応が、視覚的証拠に対する真の推論を反映しているか、訓練中に学んだ事実的先行を反映しているのかは不明である。
本稿では,視覚的正当性を事実的正当性から分離する枠組みを提案する。
- 参考スコア(独自算出の注目度): 27.323597665236644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) show strong visualization interpretation, yet it is unclear whether their responses reflect genuine reasoning over visual evidence or factual priors learned during training. Current evaluations mix these two sources, obscuring when correct visual interpretation is overridden by memorized facts. We present a framework that isolates visual correctness from factual correctness, revealing validity limitations in existing visualization literacy assessments. Across three experiments with 15 state-of-the-art LVLMs: (1) several models reach human-level performance on standard tests (VLAT), but this may reflect factual recall rather than visual understanding, while randomized-data tests (reVLAT) underestimate literacy when correct visual interpretation is superseded by factual priors. (2) Using our Counterfactual Visualization Literacy Assessment Test (CVLAT) with capability-normalized arbitration metrics, we classify models by the sign of their visual-factual reliance index (VFRI), revealing a visualization-oriented majority and a factual knowledge-oriented minority, though several near-zero cases warrant caution. A human baseline (N=30) on the same counterfactual items confirms that people overwhelmingly follow the chart under conflict, providing a human reference point. (3) Prompt-based intervention can shift prioritization, but its effectiveness is highly model-dependent and direction-asymmetric, and high chart-reading capability does not predict prompt-controllability. Overall, high visualization accuracy is not sufficient evidence of faithful visual reasoning: reliable integration into visual analytics requires evaluating not only visualization literacy but also how models arbitrate between visual evidence and factual priors when the two diverge. Benchmark and code: https://github.com/JaeyoungKim-HCIL/CVLAT
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚的な解釈が強いが、その反応が視覚的証拠に対する真の推論を反映しているか、あるいは訓練中に学習した事実的事前を反映しているかは定かではない。
現在の評価ではこれら2つの情報源が混在しており、正確な視覚的解釈が暗記された事実によって過大評価される。
本稿では,視覚的正当性を事実的正当性から分離し,既存の視覚的リテラシー評価における妥当性の限界を明らかにする枠組みを提案する。
1) 標準的なテスト(VLAT)における人間レベルの性能に達するモデルがいくつかあるが、これは視覚的な理解よりも現実的なリコールを反映しているのに対し、ランダム化されたデータテスト(reVLAT)は、正確な視覚的解釈が事実の先行によって取って代わられる場合、そのリテラシーを過小評価している。
2) CVLATと機能正規化仲裁指標を用いて, 視覚的実物信頼度指数(VFRI)の指標によってモデルを分類し, 可視化指向の多数派と事実指向の少数派を呈するが, ほぼゼロに近い事例もいくつか存在する。
同じカウンターファクトアイテム上の人間ベースライン(N=30)は、対立状態のチャートに圧倒的に従うことを確認し、人間の参照ポイントを提供する。
3) Prompt-based intervention can shift prioritization, its effective is highly model-dependent and direction-asymmetric, and high chart-reading capabilities not predict prompt-controllability。
視覚分析への信頼性の高い統合には、可視化のリテラシーを評価するだけでなく、モデルが視覚的エビデンスと事実的事前をどう仲裁するかを評価する必要がある。
ベンチマークとコード:https://github.com/JaeyoungKim-HCIL/CVLAT
関連論文リスト
- From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models [66.95781712577315]
視覚言語モデル(VLM)における知覚と推論の相互作用について、3つの異なる訓練段階に分解して検討する。
提案手法を用いてトレーニングしたモデルでは,20.8%の精度で推論精度が1.5%向上した。
論文 参考訳(メタデータ) (2026-05-19T17:58:40Z) - CounterCount: A Diagnostic Framework for Counting Bias in Vision Language Models [44.585250047959924]
VLM(Vision-Language Models)はマルチモーダル推論において優れているが、その答えが視覚的証拠に根ざされているか、あるいは学習言語や世界の先駆者によって駆動されているかは定かではない。
本稿では,VLMにおけるデファクトカウントの診断フレームワークであるCounterCountを紹介する。
これらの失敗は、欠落または曖昧な視覚的証拠によるものではなく、無関係な視覚的トークンへの注意を過小評価するモデルによるものであることを示す。
論文 参考訳(メタデータ) (2026-05-18T04:00:05Z) - VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning [5.887179947363831]
大規模視覚言語モデル(LVLM)は、強いマルチモーダル推論を実現するが、幻覚や誤った反応を高い確信でしばしば示す。
既存の言語化された信頼度校正法は、主にテキストのみのLLM向けに開発され、通常、バイナリ応答レベルの正しさを使用して単一の総合的な信頼度スコアを最適化する。
本稿では,信頼を視覚的・理性的な信頼に明確に分離する強化学習フレームワークであるVL-Calibrationを提案する。
論文 参考訳(メタデータ) (2026-04-10T17:47:19Z) - Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - V-FAT: Benchmarking Visual Fidelity Against Text-bias [10.716447149075357]
視覚認知と言語的先行の緊張について検討する。
V-FAT(Visual Fidelity Against Text-bias)は、6つのセマンティックドメインにわたる4,026のVQAインスタンスからなる診断ベンチマークである。
12個のフロンティアMLLMを評価した結果,既存のベンチマークではモデルが優れているが,高い言語的優位性の下では視覚的崩壊が顕著であることがわかった。
論文 参考訳(メタデータ) (2026-01-08T12:50:14Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。
本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。
我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文 参考訳(メタデータ) (2025-08-27T08:01:03Z) - Tell Me Without Telling Me: Two-Way Prediction of Visualization Literacy and Visual Attention [20.87674676293376]
視覚データ探索における注意パターンは,参加者のリテラシーレベルと相関することを示す。
これらの知見を活用する2つの計算モデル(Lit2SalとSal2Lit)を提案する。
論文 参考訳(メタデータ) (2025-07-22T20:18:45Z) - FiVL: A Framework for Improved Vision-Language Alignment through the Lens of Training, Evaluation and Explainability [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
本稿では,モデルがイメージを実体的証拠として用いる能力を評価するためのベンチマークを示す。
視覚による幻覚を説明できる最強の視覚言語アライメントで注目頭を特定する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。