論文の概要: ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning
- arxiv url: http://arxiv.org/abs/2401.02384v1
- Date: Thu, 4 Jan 2024 17:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:35:54.837139
- Title: ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning
- Title(参考訳): ChartAssisstant: Chart-to-Table事前学習とマルチタスク指導チューニングによるユニバーサルチャートマルチモーダル言語モデル
- Authors: Fanqing Meng, Wenqi Shao, Quanfeng Lu, Peng Gao, Kaipeng Zhang, Yu
Qiao, Ping Luo
- Abstract要約: ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
タスク固有の微調整なしで、様々なチャートタスク間の競争性能を達成する。
その結果、OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り、最先端のUniChart法よりも大きな性能向上を示した。
- 参考スコア(独自算出の注目度): 54.89249749894061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Charts play a vital role in data visualization, understanding data patterns,
and informed decision-making. However, their unique combination of graphical
elements (e.g., bars, lines) and textual components (e.g., labels, legends)
poses challenges for general-purpose multimodal models. While vision-language
models trained on chart data excel in comprehension, they struggle with
generalization and require task-specific fine-tuning. To address these
challenges, we propose ChartAssistant, a chart-based vision-language model for
universal chart comprehension and reasoning. ChartAssistant leverages ChartSFT,
a comprehensive dataset covering diverse chart-related tasks with basic and
specialized chart types. It undergoes a two-stage training process, starting
with pre-training on chart-to-table parsing to align chart and text, followed
by multitask instruction-following fine-tuning. This approach enables
ChartAssistant to achieve competitive performance across various chart tasks
without task-specific fine-tuning. Experimental results demonstrate significant
performance gains over the state-of-the-art UniChart method, outperforming
OpenAI's GPT-4V(ision) on real-world chart data. The code and data are
available at https://github.com/OpenGVLab/ChartAst.
- Abstract(参考訳): データ視覚化、データパターン理解、情報意思決定において、チャートは重要な役割を果たす。
しかし、それらのグラフィカル要素(バー、ラインなど)とテキストコンポーネント(ラベル、レジェンドなど)のユニークな組み合わせは、汎用のマルチモーダルモデルにとって課題となる。
グラフデータに基づいて訓練された視覚言語モデルは理解に優れるが、一般化に苦慮し、タスク固有の微調整を必要とする。
これらの課題に対処するために,ユニバーサルチャート理解と推論のためのグラフベースのビジョン言語モデルであるchart assistantを提案する。
ChartAssistantはChartSFTを活用している。ChartSFTは、さまざまなチャート関連タスクを基本的なチャートタイプと特殊なチャートタイプでカバーする包括的データセットである。
まず、チャートからテーブルへのパースを事前トレーニングし、チャートとテキストを調整し、次にマルチタスクのインストラクションフォローの微調整を行う。
このアプローチにより、ChartAssistantはタスク固有の微調整なしで、様々なチャートタスク間での競合性能を達成することができる。
実験により,OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り,最先端のUniChart法よりも高い性能を示した。
コードとデータはhttps://github.com/opengvlab/chartastで入手できる。
関連論文リスト
- MSG-Chart: Multimodal Scene Graph for ChartQA [11.828192162922436]
グラフに明示的に表示されていない基礎データのパターンを持つチャート要素の複雑な分布のため、ChartQA(Automatic Chart Question Answering)は難しい。
チャート要素とそれらのパターンの関係を明示的に表すために、チャートのための共同マルチモーダルシーングラフを設計する。
提案するマルチモーダルシーングラフには視覚グラフとテキストグラフが含まれており,そのグラフから構造的および意味的知識を共同でキャプチャする。
論文 参考訳(メタデータ) (2024-08-09T04:11:23Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - StructChart: Perception, Structuring, Reasoning for Visual Chart
Understanding [58.38480335579541]
現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識か、抽出されたデータから推論を行うかに焦点を当てている。
本稿では,共同認識と推論タスクのための統一的でラベル効率のよい学習パラダイムを確立することを目的とする。
各種のチャート関連タスクで実験を行い、統合されたチャート認識推論パラダイムの有効性と有望な可能性を実証した。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - UniChart: A Universal Vision-language Pretrained Model for Chart
Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。
UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。
i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文 参考訳(メタデータ) (2023-05-24T06:11:17Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。