論文の概要: StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding
- arxiv url: http://arxiv.org/abs/2309.11268v5
- Date: Wed, 04 Dec 2024 12:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:05:09.807449
- Title: StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding
- Title(参考訳): StructChart:ビジュアルチャート理解のためのスキーマ,メトリック,拡張について
- Authors: Renqiu Xia, Haoyang Peng, Hancheng Ye, Mingsheng Li, Xiangchao Yan, Peng Ye, Botian Shi, Yu Qiao, Junchi Yan, Bo Zhang,
- Abstract要約: 現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 54.45681512355684
- License:
- Abstract: Charts are common in literature across various scientific fields, conveying rich information easily accessible to readers. Current chart-related tasks focus on either chart perception that extracts information from the visual charts, or chart reasoning given the extracted data, e.g. in a tabular form. In this paper, we introduce StructChart, a novel framework that leverages Structured Triplet Representations (STR) to achieve a unified and label-efficient approach to chart perception and reasoning tasks, which is generally applicable to different downstream tasks, beyond the question-answering task as specifically studied in peer works. Specifically, StructChart first reformulates the chart data from the tubular form (linearized CSV) to STR, which can friendlily reduce the task gap between chart perception and reasoning. We then propose a Structuring Chart-oriented Representation Metric (SCRM) to quantitatively evaluate the chart perception task performance. To augment the training, we further explore the potential of Large Language Models (LLMs) to enhance the diversity in both chart visual style and statistical information. Extensive experiments on various chart-related tasks demonstrate the effectiveness and potential of a unified chart perception-reasoning paradigm to push the frontier of chart understanding.
- Abstract(参考訳): チャートは様々な科学分野にまたがる文献で一般的であり、読者が容易にアクセス可能な豊富な情報を提供する。
現在のチャート関連タスクは、視覚チャートから情報を抽出するチャート認識や、抽出されたデータから得られるチャート推論、例えば表形式でのチャート認識に重点を置いている。
本稿では,StructChartを紹介する。StructChartは構造化トリプルト表現(STR)を利用して,グラフ認識と推論タスクに対する統一的でラベル効率のよいアプローチを実現する。
具体的には、StructChartはまず、管状形式(線形化CSV)からSTRへのチャートデータを再構成し、チャート認識と推論の間のタスクギャップを友好的に低減する。
次に、チャート認識タスクのパフォーマンスを定量的に評価する構造化チャート指向表現指標(SCRM)を提案する。
学習を増強するため,大規模言語モデル(LLM)の可能性を探り,チャートの視覚的スタイルと統計情報の多様性を高める。
様々なチャート関連タスクに関する広範囲な実験は、チャート理解のフロンティアを推し進めるために、統一されたチャート認識推論パラダイムの有効性と可能性を示している。
関連論文リスト
- ChartAdapter: Large Vision-Language Model for Chart Summarization [13.499376163294816]
ChartAdapterは、チャートとテキスト要約の間のギャップを埋めるために設計された軽量トランスフォーマーモジュールである。
LLMとChartAdapterを統合することで、エンドツーエンドのトレーニングと効率的なチャート要約を可能にします。
論文 参考訳(メタデータ) (2024-12-30T05:07:34Z) - AskChart: Universal Chart Understanding through Textual Enhancement [20.075911012193494]
最先端のアプローチは、主にチャートイメージからの視覚的手がかりに焦点を当て、チャート内に埋め込まれたリッチテキスト情報を明示的に組み込むことができない。
AskChartは、Mixture of Experts (MoE)アーキテクチャを用いて、チャートからテキストと視覚の両方のキューを明示的に統合するユニバーサルモデルである。
論文 参考訳(メタデータ) (2024-12-26T09:59:43Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - Enhanced Chart Understanding in Vision and Language Task via Cross-modal
Pre-training on Plot Table Pairs [71.55796212450055]
本稿では、プロットテーブルペア上でのクロスモーダル事前学習を通じて、チャート画像からテーブル情報を解釈する方法を学ぶV+LモデルであるChartT5を紹介する。
具体的には,MHP(Masked Header Prediction)とMVP(Masked Value Prediction)の2つの新しい事前学習目標を提案する。
論文 参考訳(メタデータ) (2023-05-29T22:29:03Z) - UniChart: A Universal Vision-language Pretrained Model for Chart
Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。
UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。
i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文 参考訳(メタデータ) (2023-05-24T06:11:17Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。