Fugu-MT 論文翻訳(概要): Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning

論文の概要: Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning

arxiv url: http://arxiv.org/abs/2312.10160v1
Date: Fri, 15 Dec 2023 19:16:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 18:11:18.597018
Title: Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning
Title（参考訳）: LVLMはチャートを理解するか? チャートキャプションにおけるFactual Errorsの分析と修正
Authors: Kung-Hsiang Huang, Mingyang Zhou, Hou Pong Chan, Yi R. Fung, Zhenhailong Wang, Lingyu Zhang, Shih-Fu Chang, Heng Ji
Abstract要約: 生成したチャートキャプションに事実誤りを包括的に分類する。大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
参考スコア（独自算出の注目度）: 94.0221236363632
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in large vision-language models (LVLMs) have led to significant progress in generating natural language descriptions for visual content and thus enhancing various applications. One issue with these powerful models is that they sometimes produce texts that are factually inconsistent with the visual input. While there has been some effort to mitigate such inconsistencies in natural image captioning, the factuality of generated captions for structured document images, such as charts, has not received as much scrutiny, posing a potential threat to information reliability in critical applications. This work delves into the factuality aspect by introducing a comprehensive typology of factual errors in generated chart captions. A large-scale human annotation effort provides insight into the error patterns and frequencies in captions crafted by various chart captioning models, ultimately forming the foundation of a novel dataset, CHOCOLATE. Our analysis reveals that even state-of-the-art models, including GPT-4V, frequently produce captions laced with factual inaccuracies. In response to this challenge, we establish the new task of Chart Caption Factual Error Correction and introduce CHARTVE, a model for visual entailment that outperforms proprietary and open-source LVLMs in evaluating factual consistency. Furthermore, we propose C2TFEC, an interpretable two-stage framework that excels at correcting factual errors. This work inaugurates a new domain in factual error correction for chart captions, presenting a novel evaluation mechanism, and demonstrating an effective approach to ensuring the factuality of generated chart captions.
Abstract（参考訳）: 近年の大規模視覚言語モデル(LVLM)の進歩により、視覚コンテンツのための自然言語記述の生成が著しく進歩し、様々な応用が進んでいる。これらの強力なモデルの1つの問題は、視覚入力と事実上矛盾するテキストを生成することがあることである。自然画像のキャプションにおけるこのような矛盾を緩和する努力はいくつかあるが、チャートなどの構造化文書画像のキャプション生成の事実は、あまり精査されておらず、重要なアプリケーションにおける情報信頼性への潜在的な脅威となっている。この研究は、生成されたチャートキャプションに事実エラーの包括的型付けを導入することで、事実性の側面を掘り下げる。大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作成されたキャプションのエラーパターンと頻度に関する洞察を与え、最終的には新しいデータセットであるCHOCOLATEの基礎を形成する。分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。この課題に対応して,グラフキャプションの事実的誤り訂正の新たなタスクを確立し,事実的一貫性を評価する上で,プロプライエタリかつオープンソースなlvlmsを上回る視覚インテリメントモデルであるchartveを導入する。さらに,事実誤りの訂正に優れた解釈可能な2段階フレームワークであるC2TFECを提案する。本研究は, グラフキャプションの誤り訂正に新たな領域を見出し, 新たな評価機構を示し, 生成したチャートキャプションの事実性を確保するための効果的なアプローチを示す。

関連論文リスト

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions [55.95282725491425]
PoShは、LLMs-as-a-Judgeをガイドするために、シーングラフを構造化ルーリックとして使用する詳細な画像記述のメトリクスである。 PoShはレプリカ可能で、解釈可能で、既存のメトリクスよりも人間のレーダのプロキシが優れている。我々は,オープンウェイトな選択肢よりも,DOCENTにおける人間の判断とPoShの相関が強いことを示す。
論文参考訳（メタデータ） (2025-10-21T20:30:20Z)
Diagnosing Bottlenecks in Data Visualization Understanding by Vision-Language Models [25.564425023762045]
現在の視覚言語モデル(VLM)は、基本的なデータ可視化理解タスクに苦戦している。 VLMの失敗は、データビジュアライゼーションにおける視覚情報のエンコード方法、視覚と言語モジュール間の情報転送方法、言語モジュール内での情報処理方法の制限に起因するか? 我々は,データ可視化理解タスクのスイートであるFUGUを開発した。
論文参考訳（メタデータ） (2025-10-02T18:29:07Z)
Vision Language Models Are Not (Yet) Spelling Correctors [0.742779257315787]
視覚入力からのスペル補正は視覚言語モデル(VLM)に固有の課題をもたらす我々は、中国語と英語で実世界の視覚スペル補正について、VLMを体系的に評価する最初のベンチマークであるReViCoを提案する。
論文参考訳（メタデータ） (2025-09-22T07:10:42Z)
BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文参考訳（メタデータ） (2025-08-13T13:39:17Z)
ChartCap: Mitigating Hallucination of Dense Chart Captioning [37.96805802388932]
ChartCapは、565Kの現実世界のグラフ画像と、タイプ固有で密度の高いキャプションを組み合わせた大規模なデータセットである。 ChartCapを構築するために、チャートから識別可能なデータのみを使用してキャプションを生成する4段階のパイプラインを設計する。本稿では,キャプションから再生したチャートと元のチャートとの類似度を測定し,キャプションの品質を評価する新しいメトリクスであるビジュアル一貫性スコアを提案する。
論文参考訳（メタデータ） (2025-08-05T07:09:07Z)
On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文参考訳（メタデータ） (2024-03-28T07:43:49Z)
Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文参考訳（メタデータ） (2023-08-29T05:44:00Z)
You Can Generate It Again: Data-to-Text Generation with Verification and Correction Prompting [24.738004421537926]
T5のような小さな言語モデルは、データからテキストへのタスクのための高品質なテキストを生成するのに優れている。彼らはしばしばキーワードを見逃すが、これはこのタスクで最も重大で一般的なエラーの1つだと考えられている。我々は,データ・テキスト生成タスクにおいて,より小さな言語モデルにおける意味的忠実度を高めるためにフィードバックシステムを利用することの可能性を探る。
論文参考訳（メタデータ） (2023-06-28T05:34:25Z)
FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文参考訳（メタデータ） (2023-05-27T15:38:31Z)
Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文参考訳（メタデータ） (2023-03-06T08:32:50Z)
Towards Fine-Grained Information: Identifying the Type and Location of Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文参考訳（メタデータ） (2023-02-17T16:20:33Z)
FactGraph: Evaluating Factuality in Summarization with Semantic Graph Representations [114.94628499698096]
文書と要約を構造化された意味表現(MR)に分解するFactGraphを提案する。 MRは、コアセマンティックの概念とその関係を記述し、文書と要約の両方の主要な内容を標準形式で集約し、データの疎結合を減少させる。事実性を評価するための異なるベンチマークの実験では、FactGraphは以前のアプローチよりも最大15%優れていた。
論文参考訳（メタデータ） (2022-04-13T16:45:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。