論文の概要: ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules
- arxiv url: http://arxiv.org/abs/2304.02173v1
- Date: Wed, 5 Apr 2023 00:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:58:07.018014
- Title: ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules
- Title(参考訳): ChartReader: ヒューリスティックなルールのないチャートの推論と理解のための統一フレームワーク
- Authors: Zhi-Qi Cheng, Qi Dai, Siyao Li, Jingdong Sun, Teruko Mitamura,
Alexander G. Hauptmann
- Abstract要約: ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
- 参考スコア(独自算出の注目度): 89.75395046894809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Charts are a powerful tool for visually conveying complex data, but their
comprehension poses a challenge due to the diverse chart types and intricate
components. Existing chart comprehension methods suffer from either heuristic
rules or an over-reliance on OCR systems, resulting in suboptimal performance.
To address these issues, we present ChartReader, a unified framework that
seamlessly integrates chart derendering and comprehension tasks. Our approach
includes a transformer-based chart component detection module and an extended
pre-trained vision-language model for chart-to-X tasks. By learning the rules
of charts automatically from annotated datasets, our approach eliminates the
need for manual rule-making, reducing effort and enhancing accuracy.~We also
introduce a data variable replacement technique and extend the input and
position embeddings of the pre-trained model for cross-task training. We
evaluate ChartReader on Chart-to-Table, ChartQA, and Chart-to-Text tasks,
demonstrating its superiority over existing methods. Our proposed framework can
significantly reduce the manual effort involved in chart analysis, providing a
step towards a universal chart understanding model. Moreover, our approach
offers opportunities for plug-and-play integration with mainstream LLMs such as
T5 and TaPas, extending their capability to chart comprehension tasks. The code
is available at https://github.com/zhiqic/ChartReader.
- Abstract(参考訳): チャートは複雑なデータを視覚的に伝達するための強力なツールだが、チャートの種類や複雑なコンポーネントが多様であることから、その理解は難しい。
既存のチャート理解手法は、ヒューリスティックなルールかOCRシステムへの過度な依存のいずれかに悩まされ、結果として準最適性能をもたらす。
そこで我々はchartreaderを提案する。chartreaderは,chart derendering と comprehension タスクをシームレスに統合する統一フレームワークである。
提案手法は,トランスフォーマーを用いたチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルを含む。
注釈付きデータセットから自動的にチャートのルールを学習することで、手作業によるルール作成の必要性をなくし、労力を削減し、精度を向上させる。
また,データ変数置換手法を導入し,プリトレーニングモデルの入力と位置埋め込みを拡張してクロスタスクトレーニングを行う。
我々はchartreaderをchart-to-table,chartqa,chart-to-textタスクで評価し,既存の方法よりも優れていることを示す。
提案するフレームワークは,グラフ解析に関わる手作業を大幅に削減し,ユニバーサルチャート理解モデルへのステップを提供する。
さらに,本手法は,T5 や TaPas といったメインストリームの LLM とのプラグイン・アンド・プレイ統合を実現し,理解タスクのチャート化を可能にした。
コードはhttps://github.com/zhiqic/ChartReader.comで入手できる。
関連論文リスト
- MSG-Chart: Multimodal Scene Graph for ChartQA [11.828192162922436]
グラフに明示的に表示されていない基礎データのパターンを持つチャート要素の複雑な分布のため、ChartQA(Automatic Chart Question Answering)は難しい。
チャート要素とそれらのパターンの関係を明示的に表すために、チャートのための共同マルチモーダルシーングラフを設計する。
提案するマルチモーダルシーングラフには視覚グラフとテキストグラフが含まれており,そのグラフから構造的および意味的知識を共同でキャプチャする。
論文 参考訳(メタデータ) (2024-08-09T04:11:23Z) - Advancing Chart Question Answering with Robust Chart Component Recognition [18.207819321127182]
本稿では,バー,ライン,パイ,タイトル,伝説,軸といったコンポーネントを正確に識別し,分類することで,チャートコンポーネントの認識を強化する統一フレームワークを提案する。
また,Chartformerによって符号化されたチャート機能に与えられた質問を融合させ,正しい回答の根拠となる質問のガイダンスを活用する,新しい質問誘導型変形型コ・アテンション機構を提案する。
論文 参考訳(メタデータ) (2024-07-19T20:55:06Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - StructChart: Perception, Structuring, Reasoning for Visual Chart
Understanding [58.38480335579541]
現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識か、抽出されたデータから推論を行うかに焦点を当てている。
本稿では,共同認識と推論タスクのための統一的でラベル効率のよい学習パラダイムを確立することを目的とする。
各種のチャート関連タスクで実験を行い、統合されたチャート認識推論パラダイムの有効性と有望な可能性を実証した。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - Enhanced Chart Understanding in Vision and Language Task via Cross-modal
Pre-training on Plot Table Pairs [71.55796212450055]
本稿では、プロットテーブルペア上でのクロスモーダル事前学習を通じて、チャート画像からテーブル情報を解釈する方法を学ぶV+LモデルであるChartT5を紹介する。
具体的には,MHP(Masked Header Prediction)とMVP(Masked Value Prediction)の2つの新しい事前学習目標を提案する。
論文 参考訳(メタデータ) (2023-05-29T22:29:03Z) - UniChart: A Universal Vision-language Pretrained Model for Chart
Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。
UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。
i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文 参考訳(メタデータ) (2023-05-24T06:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。