論文の概要: The Perils of Chart Deception: How Misleading Visualizations Affect Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.09716v1
- Date: Wed, 13 Aug 2025 11:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.867584
- Title: The Perils of Chart Deception: How Misleading Visualizations Affect Vision-Language Models
- Title(参考訳): チャート誤認の危険性:視覚・言語モデルにどのように影響するか
- Authors: Ridwan Mahbub, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Mizanur Rahman, Mir Tafseer Nayeem, Enamul Hoque,
- Abstract要約: VLM(Vision-Language Models)は、特に専門家でないユーザによって可視化の解釈に使用されるようになっている。
本研究では,8種類のミスリードチャートを対象とする10種類のモデルから16,000以上の応答を解析した。
本研究は,視覚的誤報に対するVLMの堅牢な保護の必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 11.500090488046899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information visualizations are powerful tools that help users quickly identify patterns, trends, and outliers, facilitating informed decision-making. However, when visualizations incorporate deceptive design elements-such as truncated or inverted axes, unjustified 3D effects, or violations of best practices-they can mislead viewers and distort understanding, spreading misinformation. While some deceptive tactics are obvious, others subtly manipulate perception while maintaining a facade of legitimacy. As Vision-Language Models (VLMs) are increasingly used to interpret visualizations, especially by non-expert users, it is critical to understand how susceptible these models are to deceptive visual designs. In this study, we conduct an in-depth evaluation of VLMs' ability to interpret misleading visualizations. By analyzing over 16,000 responses from ten different models across eight distinct types of misleading chart designs, we demonstrate that most VLMs are deceived by them. This leads to altered interpretations of charts, despite the underlying data remaining the same. Our findings highlight the need for robust safeguards in VLMs against visual misinformation.
- Abstract(参考訳): 情報の視覚化は、ユーザがパターンやトレンド、アウトリーチを素早く識別し、情報的な意思決定を促進する強力なツールだ。
しかし、視覚的な要素が、歪んだり逆転した軸、不当な3D効果、あるいはベストプラクティス違反など、偽造デザイン要素を取り入れている場合、視聴者を誤解させ、理解を歪ませ、誤情報を広げる。
疑わしい戦術は明らかだが、正当性のファサードを維持しながら知覚を微妙に操るものもいる。
VLM(Vision-Language Models)は、特に専門家でないユーザによる可視化の解釈にますます利用されているため、これらのモデルが視覚的デザインを欺く可能性を理解することが重要である。
本研究では,誤解を招く可視化を解釈するVLMの能力について,詳細な評価を行う。
8種類の誤解を招くチャートデザインの10種類のモデルから16,000以上の応答を解析することにより、ほとんどのVLMがそれらによって騙されていることを示す。
これにより、基礎となるデータが同じであるにもかかわらず、チャートの解釈が変更される。
本研究は,視覚的誤報に対するVLMの堅牢な保護の必要性を浮き彫りにした。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。
SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文 参考訳(メタデータ) (2025-06-10T02:55:38Z) - Aligning Attention Distribution to Information Flow for Hallucination Mitigation in Large Vision-Language Models [11.385588803559733]
セマンティック表現に埋め込まれたコア情報を活用することにより,モデルの視覚的理解を高める。
5種類のLVLMを用いて3つの画像キャプションベンチマークを行い,幻覚の低減効果を実証した。
論文 参考訳(メタデータ) (2025-05-20T12:10:13Z) - On the Perception Bottleneck of VLMs for Chart Understanding [17.70892579781301]
チャート理解には、数値データ、テキスト要素、複雑なビジュアルコンポーネントを分析し、推論するモデルが必要である。
この過程において,既存の大規模視覚言語モデル(LVLM)の知覚能力が重要なボトルネックとなっていることが明らかとなった。
本研究では,視覚エンコーダのボトルネックと抽出ボトルネックの2つのコンポーネントに分解することで,この認識ボトルネックを解明する。
論文 参考訳(メタデータ) (2025-03-24T08:33:58Z) - Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。
我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文 参考訳(メタデータ) (2025-03-13T20:13:39Z) - Protecting multimodal large language models against misleading visualizations [94.71976205962527]
この結果から,誤解を招く可視化に対する質問応答(QA)の精度が,ランダムなベースラインのレベルに平均で低下していることが示唆された。
本研究では,非ミスリーディングの精度を損なうことなく,誤解を招くビジュアライゼーションにおけるQA性能を改善するための最初の推論時間手法を提案する。
テーブルベースのQAと視覚化を再描画する2つの方法が有効であり、最大19.6ポイントの改善が期待できる。
論文 参考訳(メタデータ) (2025-02-27T20:22:34Z) - Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge [24.538839144639653]
LVLM(Large Vision-Language Models)は、学習済みのビジョンと言語コンポーネントを個別に統合する。
これらのモデルはしばしば、視覚エンコーダ(VE)と大言語モデル(LLM)の「認知的不整合」の中核的な問題に遭遇する。
論文 参考訳(メタデータ) (2024-11-25T18:33:14Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。