論文の概要: Enhanced Chart Understanding in Vision and Language Task via Cross-modal
Pre-training on Plot Table Pairs
- arxiv url: http://arxiv.org/abs/2305.18641v1
- Date: Mon, 29 May 2023 22:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 19:08:12.849225
- Title: Enhanced Chart Understanding in Vision and Language Task via Cross-modal
Pre-training on Plot Table Pairs
- Title(参考訳): プロットテーブル対のクロスモーダル事前学習による視覚・言語タスクにおけるチャート理解の強化
- Authors: Mingyang Zhou, Yi R. Fung, Long Chen, Christopher Thomas, Heng Ji,
Shih-Fu Chang
- Abstract要約: 本稿では、プロットテーブルペア上でのクロスモーダル事前学習を通じて、チャート画像からテーブル情報を解釈する方法を学ぶV+LモデルであるChartT5を紹介する。
具体的には,MHP(Masked Header Prediction)とMVP(Masked Value Prediction)の2つの新しい事前学習目標を提案する。
- 参考スコア(独自算出の注目度): 71.55796212450055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building cross-model intelligence that can understand charts and communicate
the salient information hidden behind them is an appealing challenge in the
vision and language(V+L) community. The capability to uncover the underlined
table data of chart figures is a critical key to automatic chart understanding.
We introduce ChartT5, a V+L model that learns how to interpret table
information from chart images via cross-modal pre-training on plot table pairs.
Specifically, we propose two novel pre-training objectives: Masked Header
Prediction (MHP) and Masked Value Prediction (MVP) to facilitate the model with
different skills to interpret the table information. We have conducted
extensive experiments on chart question answering and chart summarization to
verify the effectiveness of the proposed pre-training strategies. In
particular, on the ChartQA benchmark, our ChartT5 outperforms the
state-of-the-art non-pretraining methods by over 8% performance gains.
- Abstract(参考訳): チャートを理解し、背後に隠された健全な情報を伝達できるクロスモデルインテリジェンスの構築は、ビジョンと言語(V+L)コミュニティにおいて魅力的な課題である。
グラフ図の下の表データを明らかにする能力は、自動チャート理解の鍵となる。
プロットテーブル対のクロスモーダル事前学習を通じてチャート画像からテーブル情報を解釈する方法を学ぶv+lモデルであるchartt5を紹介する。
具体的には,MHP(Masked Header Prediction)とMVP(Masked Value Prediction)の2つの新しい事前学習目標を提案する。
提案する事前学習戦略の有効性を検証するために,チャート質問応答とチャート要約に関する広範な実験を行った。
特にchartqaベンチマークでは、chartt5は最先端の非トレーニングメソッドを8%以上のパフォーマンス向上で上回っています。
関連論文リスト
- ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning [28.204261069650897]
71Kチャートで生成した191K命令からなる新しいチャート固有視覚言語インストラクションフォローデータセットであるChartInstructを紹介した。
4つの下流タスクの実験において、まずモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-03-14T01:40:23Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for
Complicated Chart Reasoning [56.4579228575522]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - StructChart: Perception, Structuring, Reasoning for Visual Chart
Understanding [58.38480335579541]
現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識か、抽出されたデータから推論を行うかに焦点を当てている。
本稿では,共同認識と推論タスクのための統一的でラベル効率のよい学習パラダイムを確立することを目的とする。
各種のチャート関連タスクで実験を行い、統合されたチャート認識推論パラダイムの有効性と有望な可能性を実証した。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。