論文の概要: True (VIS) Lies: Analyzing How Generative AI Recognizes Intentionality, Rhetoric, and Misleadingness in Visualization Lies
- arxiv url: http://arxiv.org/abs/2604.01181v1
- Date: Wed, 01 Apr 2026 17:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.122322
- Title: True (VIS) Lies: Analyzing How Generative AI Recognizes Intentionality, Rhetoric, and Misleadingness in Visualization Lies
- Title(参考訳): 真の(VIS)嘘:可視化嘘における生成AIが意図、レトリック、誤解をいかに認識するかの分析
- Authors: Graziano Blasilli, Marco Angelini,
- Abstract要約: 本研究では,マルチモーダルな大規模言語モデルを用いて,誤解を招くビジュアライゼーションを識別し,解釈する能力について検討する。
我々は3つの研究質問を定式化し、2,336のCOVID-19関連ツイートのデータセットを用いて実験的に対処した。
また,これらの課題に対する人間の視点を確立するために,視覚的専門家によるユーザスタディを実施し,人々が修辞的手法をどのように感じているかを評価する。
- 参考スコア(独自算出の注目度): 2.9642621793678092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the ability of multimodal Large Language Models (LLMs) to identify and interpret misleading visualizations, and recognize these observations along with their underlying causes and potential intentionality. Our analysis leverages concepts from visualization rhetoric and a newly developed taxonomy of authorial intents as explanatory lenses. We formulated three research questions and addressed them experimentally using a dataset of 2,336 COVID-19-related tweets, half of which contain misleading visualizations, and supplemented it with real-world examples of perceptual, cognitive, and conceptual errors drawn from VisLies, the IEEE VIS community event dedicated to showcasing deceptive and misleading visualizations. To ensure broad coverage of the current LLM landscape, we evaluated 16 state-of-the-art models. Among them, 15 are open-weight models, spanning a wide range of model sizes, architectural families, and reasoning capabilities. The selection comprises small models, namely Nemotron-Nano-V2-VL (12B parameters), Mistral-Small-3.2 (24B), DeepSeek-VL2 (27B), Gemma3 (27B), and GTA1 (32B); medium-sized models, namely Qianfan-VL (70B), Molmo (72B), GLM-4.5V (108B), LLaVA-NeXT (110B), and Pixtral-Large (124B); and large models, namely Qwen3-VL (235B), InternVL3.5 (241B), Step3 (321B), Llama-4-Maverick (400B), and Kimi-K2.5 (1000B). In addition, we employed OpenAI GPT-5.4, a frontier proprietary model. To establish a human perspective on these tasks, we also conducted a user study with visualization experts to assess how people perceive rhetorical techniques and the authorial intentions behind the same misleading visualizations. This allows comparison between model and expert behavior, revealing similarities and differences that provide insights into where LLMs align with human judgment and where they diverge.
- Abstract(参考訳): 本研究では,マルチモーダル大規模言語モデル(LLM)の誤認を識別・解釈する能力について検討し,その基礎となる原因や潜在的な意図とともに,これらの観察を認識できることを示す。
我々の分析では、可視化レトリックの概念と、説明レンズとして権威的意図の分類を新たに開発した。
我々は3つの研究質問を定式化して,2,336件のCOVID-19関連ツイートのデータセットを用いて対処した。その半数は誤解を招きやすい可視化を含むものであり,その内の半分は知覚的,認知的,概念的エラーの現実的な例であるVisLies(知覚的,認識的,概念的エラー)を補足した。
現在のLLMランドスケープを広範囲にカバーするために,16の最先端モデルを評価した。
中でも15はオープンウェイトモデルであり、幅広いモデルサイズ、アーキテクチャファミリ、推論能力にまたがっている。
Nemotron-Nano-V2-VL (12Bパラメータ), Mistral-Small-3.2 (24B), DeepSeek-VL2 (27B), Gemma3 (27B), GTA1 (32B), 中型モデル, Qianfan-VL (70B), Molmo (72B), GLM-4.5V (108B), LLaVA-NeXT (110B), Pixtral-Large (24B), Qwen3-VL (235B), InternVL3.5 (241B), Step3 (321B), Llama-4-Mave (400B), Kimi (1000B), Kimi (1000B) である。
さらに、フロンティアプロプライエタリモデルであるOpenAI GPT-5.4を採用しました。
また、これらの課題に対する人間の視点を確立するために、視覚的専門家とともに、人々がどのように修辞的手法と、同じ誤解を招く視覚化の背後にある著者の意図を知覚するかを評価するためのユーザスタディも行った。
これにより、モデルと専門家の行動の比較が可能になり、LLMが人間の判断とどのように一致し、どこで分岐するかについての洞察を提供する類似点と相違点を明らかにする。
関連論文リスト
- Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling [0.0]
視覚的質問応答への現在のアプローチは、科学データ解釈に必要な正確さに苦慮することが多い。
我々はSciVQA 2025の共有課題に対して,学術論文からの科学的数字に基づく視覚的・非視覚的質問への回答に焦点をあてる。
本研究は,視覚的質問応答におけるモデルの性能向上における,迅速な最適化,連鎖推論,アンサンブルモデリングの有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-08T17:05:42Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。