論文の概要: Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning
- arxiv url: http://arxiv.org/abs/2312.10160v2
- Date: Thu, 30 May 2024 05:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 23:32:48.342479
- Title: Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning
- Title(参考訳): LVLMはチャートを理解しているか? チャートキャプションにおける実際のエラーの分析と修正
- Authors: Kung-Hsiang Huang, Mingyang Zhou, Hou Pong Chan, Yi R. Fung, Zhenhailong Wang, Lingyu Zhang, Shih-Fu Chang, Heng Ji,
- Abstract要約: 生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
- 参考スコア(独自算出の注目度): 90.13978453378768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large vision-language models (LVLMs) have led to significant progress in generating natural language descriptions for visual content and thus enhancing various applications. One issue with these powerful models is that they sometimes produce texts that are factually inconsistent with the visual input. While there has been some effort to mitigate such inconsistencies in natural image captioning, the factuality of generated captions for structured document images, such as charts, has not received as much scrutiny, posing a potential threat to information reliability in critical applications. This work delves into the factuality aspect by introducing a comprehensive typology of factual errors in generated chart captions. A large-scale human annotation effort provides insight into the error patterns and frequencies in captions crafted by various chart captioning models, ultimately forming the foundation of a novel dataset, CHOCOLATE. Our analysis reveals that even state-of-the-art models, including GPT-4V, frequently produce captions laced with factual inaccuracies. In response to this challenge, we establish the new task of Chart Caption Factual Error Correction and introduce CHARTVE, a model for visual entailment that outperforms proprietary and open-source LVLMs in evaluating factual consistency. Furthermore, we propose C2TFEC, an interpretable two-stage framework that excels at correcting factual errors. This work inaugurates a new domain in factual error correction for chart captions, presenting a novel evaluation mechanism, and demonstrating an effective approach to ensuring the factuality of generated chart captions. The code and data as well as the continuously updated benchmark can be found at: https://khuangaf.github.io/CHOCOLATE/.
- Abstract(参考訳): 近年の大規模視覚言語モデル(LVLM)の進歩により、視覚コンテンツのための自然言語記述の生成が著しく進歩し、様々な応用が進んでいる。
これらの強力なモデルの1つの問題は、時に視覚的な入力と現実的に矛盾するテキストを生成することである。
自然画像のキャプションにおけるこのような矛盾を緩和する努力はいくつかあるが、チャートなどの構造化文書画像のキャプション生成の事実は、あまり精査されておらず、重要なアプリケーションにおける情報信頼性への潜在的な脅威となっている。
この研究は、生成されたチャートキャプションに事実エラーの包括的型付けを導入することで、事実性の側面を掘り下げるものである。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作成されたキャプションのエラーパターンと頻度に関する洞察を与え、最終的には新しいデータセットであるCHOCOLATEの基礎を形成する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
この課題に対応するために、我々はChart Caption Factual Error Correctionの新たなタスクを確立し、実際の一貫性を評価するために、プロプライエタリでオープンソースのLVLMよりも優れた視覚的エンタテインメントモデルCHARTVEを導入する。
さらに,事実誤りの訂正に優れた解釈可能な2段階のフレームワークであるC2TFECを提案する。
本研究は, グラフキャプションの誤り訂正に新たな領域を見出し, 新たな評価機構を示し, 生成したチャートキャプションの事実性を確保するための効果的なアプローチを示す。
コードとデータを継続的に更新するベンチマークは、https://khuangaf.github.io/CHOCOLATE/.com/で見ることができる。
関連論文リスト
- On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文 参考訳(メタデータ) (2023-08-29T05:44:00Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - FactGraph: Evaluating Factuality in Summarization with Semantic Graph
Representations [114.94628499698096]
文書と要約を構造化された意味表現(MR)に分解するFactGraphを提案する。
MRは、コアセマンティックの概念とその関係を記述し、文書と要約の両方の主要な内容を標準形式で集約し、データの疎結合を減少させる。
事実性を評価するための異なるベンチマークの実験では、FactGraphは以前のアプローチよりも最大15%優れていた。
論文 参考訳(メタデータ) (2022-04-13T16:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。