論文の概要: ChartHal: A Fine-grained Framework Evaluating Hallucination of Large Vision Language Models in Chart Understanding
- arxiv url: http://arxiv.org/abs/2509.17481v1
- Date: Mon, 22 Sep 2025 08:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.287183
- Title: ChartHal: A Fine-grained Framework Evaluating Hallucination of Large Vision Language Models in Chart Understanding
- Title(参考訳): ChartHal: グラフ理解における大規模視覚言語モデルの幻覚を評価する細粒度フレームワーク
- Authors: Xingqi Wang, Yiming Cui, Xin Yao, Shijin Wang, Guoping Hu, Xiaoyu Qin,
- Abstract要約: グラフ理解における幻覚のシナリオのきめ細かい分類を特徴とするベンチマークであるChartHalを提示する。
現状のLVLMはChartHalに対する深刻な幻覚に悩まされている。
チャートから欠落または矛盾した情報に関する質問は、特に幻覚を引き起こす可能性がある。
- 参考スコア(独自算出の注目度): 19.786784546879986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have recently demonstrated remarkable progress, yet hallucination remains a critical barrier, particularly in chart understanding, which requires sophisticated perceptual and cognitive abilities as well as rigorous factual accuracy. While prior work has investigated hallucinations and chart comprehension independently, their intersection remains largely unexplored. To address this gap, we present ChartHal, a benchmark that features a fine-grained taxonomy of hallucination scenarios in chart understanding, along with a human-validated dataset of 1,062 samples. Our evaluation shows that state-of-the-art LVLMs suffer from severe hallucinations on ChartHal, including proprietary models such as GPT-5 and o4-mini, which achieve only 34.46% and 22.79% accuracy, respectively. Further analysis reveals that questions involving information absent from or contradictory to charts are especially likely to trigger hallucinations, underscoring the urgent need for more robust mitigation strategies. Code and data are available at https://github.com/ymcui/ChartHal .
- Abstract(参考訳): LVLM(Large Vision-Language Models)は近年顕著な進歩を見せているが、特にチャート理解において幻覚は重要な障壁であり、高度な知覚能力と認知能力と厳密な事実的正確性を必要とする。
以前の研究は幻覚とチャートの理解を独立に研究してきたが、それらの交点はほとんど未解明のままである。
このギャップに対処するために、チャート理解における幻覚のシナリオのきめ細かい分類を特徴とするベンチマークであるChartHalと、人による1,062のサンプルデータセットを提示する。
GPT-5 や o4-mini などのプロプライエタリなモデルでは,それぞれ 34.46% と 22.79% の精度しか得られていない。
さらなる分析により、チャートから欠落した情報や、チャートに矛盾した情報に関する質問は、特に幻覚を引き起こす可能性が高く、より堅牢な緩和戦略の緊急の必要性が強調されている。
コードとデータはhttps://github.com/ymcui/ChartHal.comで公開されている。
関連論文リスト
- SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework [1.9286785775296298]
本稿では,知識グラフ構造における情報表現に基づく幻覚評価フレームワークGraphEvalを提案する。
我々のアプローチと最先端自然言語推論(NLI)モデルとの併用により、様々な幻覚ベンチマークにおけるバランスの取れた精度が向上する。
論文 参考訳(メタデータ) (2024-07-15T15:11:16Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。