論文の概要: VisText: A Benchmark for Semantically Rich Chart Captioning
- arxiv url: http://arxiv.org/abs/2307.05356v1
- Date: Wed, 28 Jun 2023 15:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-16 03:55:21.866833
- Title: VisText: A Benchmark for Semantically Rich Chart Captioning
- Title(参考訳): VisText:Semantically Rich Chart Captioningのベンチマーク
- Authors: Benny J. Tang, Angie Boggust and Arvind Satyanarayan
- Abstract要約: VisTextは、チャートの構成を記述した12,441組のチャートとキャプションのデータセットである。
我々のモデルはコヒーレントで意味的に豊かなキャプションを生成し、最先端のチャートキャプションモデルと同等に機能する。
- 参考スコア(独自算出の注目度): 12.117737635879037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Captions that describe or explain charts help improve recall and
comprehension of the depicted data and provide a more accessible medium for
people with visual disabilities. However, current approaches for automatically
generating such captions struggle to articulate the perceptual or cognitive
features that are the hallmark of charts (e.g., complex trends and patterns).
In response, we introduce VisText: a dataset of 12,441 pairs of charts and
captions that describe the charts' construction, report key statistics, and
identify perceptual and cognitive phenomena. In VisText, a chart is available
as three representations: a rasterized image, a backing data table, and a scene
graph -- a hierarchical representation of a chart's visual elements akin to a
web page's Document Object Model (DOM). To evaluate the impact of VisText, we
fine-tune state-of-the-art language models on our chart captioning task and
apply prefix-tuning to produce captions that vary the semantic content they
convey. Our models generate coherent, semantically rich captions and perform on
par with state-of-the-art chart captioning models across machine translation
and text generation metrics. Through qualitative analysis, we identify six
broad categories of errors that our models make that can inform future work.
- Abstract(参考訳): チャートを記述または説明するキャプションは、描写されたデータのリコールと理解を改善し、視覚障害者にとってよりアクセスしやすい媒体を提供する。
しかし、このようなキャプションを自動生成する現在のアプローチは、チャートの目印である知覚的特徴や認知的特徴(複雑な傾向やパターンなど)を明確にするのに苦労している。
グラフの構成を記述した12,441組のチャートとキャプションのデータセットであるVisTextを紹介し、重要な統計を報告し、知覚的および認知的現象を識別する。
VisTextでは、チャートはラスタ化イメージ、バックデータテーブル、シーングラフの3つの表現として利用可能である。これは、チャートの視覚要素をWebページのドキュメントオブジェクトモデル(DOM)に似た階層的な表現である。
vistextの影響を評価するために、グラフキャプションタスクに最先端の言語モデルを微調整し、彼らが伝達する意味的コンテンツが異なるキャプションを作成するためにプレフィックスチューニングを適用します。
我々のモデルはコヒーレントでセマンティックにリッチなキャプションを生成し、機械翻訳とテキスト生成のメトリクスで最先端のチャートキャプションモデルと同等に機能する。
定性的分析により、我々のモデルが将来の作業に役立てる6つの幅広いエラーカテゴリを特定します。
関連論文リスト
- On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - StructChart: Perception, Structuring, Reasoning for Visual Chart
Understanding [58.38480335579541]
現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識か、抽出されたデータから推論を行うかに焦点を当てている。
本稿では,共同認識と推論タスクのための統一的でラベル効率のよい学習パラダイムを確立することを目的とする。
各種のチャート関連タスクで実験を行い、統合されたチャート認識推論パラダイムの有効性と有望な可能性を実証した。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - UniChart: A Universal Vision-language Pretrained Model for Chart
Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。
UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。
i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文 参考訳(メタデータ) (2023-05-24T06:11:17Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。
データセット構築プロセスを説明し、データセットを解析する。
論文 参考訳(メタデータ) (2022-03-12T17:01:38Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Chart-to-Text: Generating Natural Language Descriptions for Charts by
Adapting the Transformer Model [6.320141734801679]
我々は,新しいデータセットを導入し,グラフの自然言語要約を自動的に生成するニューラルモデルを提案する。
生成された要約は、チャートの解釈を提供し、そのチャートで見られる重要な洞察を伝える。
論文 参考訳(メタデータ) (2020-10-18T23:57:33Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。