論文の概要: ChartCap: Mitigating Hallucination of Dense Chart Captioning
- arxiv url: http://arxiv.org/abs/2508.03164v1
- Date: Tue, 05 Aug 2025 07:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.831636
- Title: ChartCap: Mitigating Hallucination of Dense Chart Captioning
- Title(参考訳): ChartCap:Dense Chart Captioningの幻覚を和らげる
- Authors: Junyoung Lim, Jaewoo Ahn, Gunhee Kim,
- Abstract要約: ChartCapは、565Kの現実世界のグラフ画像と、タイプ固有で密度の高いキャプションを組み合わせた大規模なデータセットである。
ChartCapを構築するために、チャートから識別可能なデータのみを使用してキャプションを生成する4段階のパイプラインを設計する。
本稿では,キャプションから再生したチャートと元のチャートとの類似度を測定し,キャプションの品質を評価する新しいメトリクスであるビジュアル一貫性スコアを提案する。
- 参考スコア(独自算出の注目度): 37.96805802388932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating accurate, informative, and hallucination-free captions for charts remains challenging for vision language models, primarily due to the lack of large-scale, high-quality datasets of real-world charts. However, existing real-world chart datasets suffer from the inclusion of extraneous information that cannot be inferred from the chart and failure to sufficiently capture structural elements and key insights. Therefore, we introduce ChartCap, a large-scale dataset of 565K real-world chart images paired with type-specific, dense captions that exclude extraneous information and highlight both structural elements and key insights in detail. To build ChartCap, we design a four-stage pipeline that generates captions using only the discernible data from the chart and employ a cycle consistency-based human verification, which accelerates quality control without sacrificing accuracy. Additionally, we propose a novel metric, the Visual Consistency Score, which evaluates caption quality by measuring the similarity between the chart regenerated from a caption and the original chart, independent of reference captions. Extensive experiments confirms that models fine-tuned on ChartCap consistently generate more accurate and informative captions with reduced hallucinations, surpassing both open-source and proprietary models and even human-annotated captions.
- Abstract(参考訳): グラフの精度、情報、幻覚のないキャプションを生成することは、視覚言語モデルにとって依然として困難である。
しかし、既存の実世界のチャートデータセットには、チャートから推測できない外部情報が含まれており、構造的要素や重要な洞察を十分に捉えることができない。
そこで我々は,565Kのリアルタイムグラフ画像と,外部情報を取り除き,構造的要素と重要な洞察を詳細に強調する,タイプ固有で高密度なキャプションを組み合わせた大規模データセットであるChartCapを紹介した。
ChartCapを構築するために、チャートから識別可能なデータのみを使用してキャプションを生成する4段階のパイプラインを設計し、精度を犠牲にすることなく品質管理を加速するサイクル一貫性に基づく人間による検証を利用する。
さらに,キャプションから再生したチャートと元のチャートとの類似度を基準キャプションから独立して測定し,キャプションの品質を評価する新しい指標であるビジュアルコンシステンシースコアを提案する。
大規模な実験により、ChartCapで微調整されたモデルは、より正確で、幻覚を減らし、オープンソースモデルとプロプライエタリモデル、さらには人間による注釈付きキャプションを超越した、情報的なキャプションを一貫して生成していることが確認された。
関連論文リスト
- ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。
グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。
評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文 参考訳(メタデータ) (2025-05-25T23:17:32Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - VisText: A Benchmark for Semantically Rich Chart Captioning [12.117737635879037]
VisTextは、チャートの構成を記述した12,441組のチャートとキャプションのデータセットである。
我々のモデルはコヒーレントで意味的に豊かなキャプションを生成し、最先端のチャートキャプションモデルと同等に機能する。
論文 参考訳(メタデータ) (2023-06-28T15:16:24Z) - Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。
データセット構築プロセスを説明し、データセットを解析する。
論文 参考訳(メタデータ) (2022-03-12T17:01:38Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。