論文の概要: Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in
Chart Captioning
- arxiv url: http://arxiv.org/abs/2312.10160v1
- Date: Fri, 15 Dec 2023 19:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:11:18.597018
- Title: Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in
Chart Captioning
- Title(参考訳): LVLMはチャートを理解するか?
チャートキャプションにおけるFactual Errorsの分析と修正
- Authors: Kung-Hsiang Huang, Mingyang Zhou, Hou Pong Chan, Yi R. Fung,
Zhenhailong Wang, Lingyu Zhang, Shih-Fu Chang, Heng Ji
- Abstract要約: 生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
- 参考スコア(独自算出の注目度): 94.0221236363632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large vision-language models (LVLMs) have led to
significant progress in generating natural language descriptions for visual
content and thus enhancing various applications. One issue with these powerful
models is that they sometimes produce texts that are factually inconsistent
with the visual input. While there has been some effort to mitigate such
inconsistencies in natural image captioning, the factuality of generated
captions for structured document images, such as charts, has not received as
much scrutiny, posing a potential threat to information reliability in critical
applications. This work delves into the factuality aspect by introducing a
comprehensive typology of factual errors in generated chart captions. A
large-scale human annotation effort provides insight into the error patterns
and frequencies in captions crafted by various chart captioning models,
ultimately forming the foundation of a novel dataset, CHOCOLATE. Our analysis
reveals that even state-of-the-art models, including GPT-4V, frequently produce
captions laced with factual inaccuracies. In response to this challenge, we
establish the new task of Chart Caption Factual Error Correction and introduce
CHARTVE, a model for visual entailment that outperforms proprietary and
open-source LVLMs in evaluating factual consistency. Furthermore, we propose
C2TFEC, an interpretable two-stage framework that excels at correcting factual
errors. This work inaugurates a new domain in factual error correction for
chart captions, presenting a novel evaluation mechanism, and demonstrating an
effective approach to ensuring the factuality of generated chart captions.
- Abstract(参考訳): 近年の大規模視覚言語モデル(LVLM)の進歩により、視覚コンテンツのための自然言語記述の生成が著しく進歩し、様々な応用が進んでいる。
これらの強力なモデルの1つの問題は、視覚入力と事実上矛盾するテキストを生成することがあることである。
自然画像のキャプションにおけるこのような矛盾を緩和する努力はいくつかあるが、チャートなどの構造化文書画像のキャプション生成の事実は、あまり精査されておらず、重要なアプリケーションにおける情報信頼性への潜在的な脅威となっている。
この研究は、生成されたチャートキャプションに事実エラーの包括的型付けを導入することで、事実性の側面を掘り下げる。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作成されたキャプションのエラーパターンと頻度に関する洞察を与え、最終的には新しいデータセットであるCHOCOLATEの基礎を形成する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
この課題に対応して,グラフキャプションの事実的誤り訂正の新たなタスクを確立し,事実的一貫性を評価する上で,プロプライエタリかつオープンソースなlvlmsを上回る視覚インテリメントモデルであるchartveを導入する。
さらに,事実誤りの訂正に優れた解釈可能な2段階フレームワークであるC2TFECを提案する。
本研究は, グラフキャプションの誤り訂正に新たな領域を見出し, 新たな評価機構を示し, 生成したチャートキャプションの事実性を確保するための効果的なアプローチを示す。
関連論文リスト
- Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文 参考訳(メタデータ) (2023-08-29T05:44:00Z) - VisText: A Benchmark for Semantically Rich Chart Captioning [12.117737635879037]
VisTextは、チャートの構成を記述した12,441組のチャートとキャプションのデータセットである。
我々のモデルはコヒーレントで意味的に豊かなキャプションを生成し、最先端のチャートキャプションモデルと同等に機能する。
論文 参考訳(メタデータ) (2023-06-28T15:16:24Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - FactGraph: Evaluating Factuality in Summarization with Semantic Graph
Representations [114.94628499698096]
文書と要約を構造化された意味表現(MR)に分解するFactGraphを提案する。
MRは、コアセマンティックの概念とその関係を記述し、文書と要約の両方の主要な内容を標準形式で集約し、データの疎結合を減少させる。
事実性を評価するための異なるベンチマークの実験では、FactGraphは以前のアプローチよりも最大15%優れていた。
論文 参考訳(メタデータ) (2022-04-13T16:45:33Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。