論文の概要: TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning
- arxiv url: http://arxiv.org/abs/2404.16635v1
- Date: Thu, 25 Apr 2024 14:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:30:22.135650
- Title: TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning
- Title(参考訳): TinyChart: Visual Token MergingとProgram-of-Thoughts Learningによる効率的なチャート理解
- Authors: Liang Zhang, Anwen Hu, Haiyang Xu, Ming Yan, Yichen Xu, Qin Jin, Ji Zhang, Fei Huang,
- Abstract要約: 本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
- 参考スコア(独自算出の注目度): 83.58521787193293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Charts are important for presenting and explaining complex data relationships. Recently, multimodal large language models (MLLMs) have shown remarkable capabilities in various chart understanding tasks. However, the sheer size of these models in terms of parameters and computational requirements limits their use in resource-constrained environments. In this paper, we present TinyChart, an efficient MLLM for chart understanding with only 3B parameters. TinyChart overcomes two key challenges in efficient chart understanding: (1) reduce the burden of learning numerical computations through a Program-of-Thoughts (PoT) learning strategy, which trains the model to generate Python programs for numerical calculations, and (2) reduce lengthy vision feature sequences produced by the vision transformer for high-resolution images through a Vision Token Merging module, which gradually merges most similar vision tokens. Extensive experiments demonstrate that our 3B TinyChart achieves SOTA performance on a variety of chart understanding benchmarks including ChartQA, Chart-to-Text, Chart-to-Table, OpenCQA, and ChartX. It outperforms several chart understanding MLLM with up to 13B parameters such as ChartLlama and ChartAst, and close-sourced general-purpose MLLM GPT-4V on ChartQA. It also demonstrates its superior efficiency with higher throughput during inference due to a smaller model scale and more efficient vision encoding. Our code and model are available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/TinyChart.
- Abstract(参考訳): チャートは複雑なデータ関係の提示と説明に重要である。
近年,マルチモーダル大規模言語モデル (MLLM) は様々なチャート理解タスクにおいて顕著な機能を示している。
しかし、パラメータや計算要求の観点からは、これらのモデルの十分なサイズは、リソース制約のある環境での使用を制限する。
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)数値計算のためのPythonプログラムを生成するためにモデルを訓練するProgram-of-Thoughts (PoT)学習戦略による数値計算学習の負担を軽減すること,2)視覚変換器が高解像度画像に対して生成する長大な視覚特徴系列をVision Token Mergingモジュールで徐々にマージすること,の2つの課題を克服した。
3B TinyChartは、ChartQA、Chart-to-Text、Chart-to-Table、OpenCQA、ChartXなど、さまざまなチャート理解ベンチマークでSOTAのパフォーマンスを実現しています。
ChartLlamaやChartAstなどの最大13Bパラメータと、ChartQA上での汎用MLLM GPT-4Vよりも優れている。
また、より小さなモデルスケールとより効率的な視覚符号化のため、推論中に高いスループットで優れた効率を示す。
私たちのコードとモデルはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/TinyChartで利用可能です。
関連論文リスト
- ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for
Complicated Chart Reasoning [56.4579228575522]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [38.66840297139763]
複雑な視覚的推論によってMLLMのチャート理解とデータの信頼性を評価するためにChartBenchを提案する。
ChartBenchは、42のカテゴリ、2.1Kのチャート、16.8Kの質問応答ペアを含む幅広いスペクトルを含んでいる。
また、労働集約的な手作業を必要とせずにMLLMの評価を容易にする拡張評価指標であるAcc+を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - UniChart: A Universal Vision-language Pretrained Model for Chart
Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。
UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。
i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文 参考訳(メタデータ) (2023-05-24T06:11:17Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z) - Table2Charts: Recommending Charts by Learning Shared Table
Representations [61.68711232246847]
Table2Chartsは、(テーブル、チャート)ペアの大きなコーパスから共通のパターンを学ぶ。
165kのテーブルと266kのチャートを持つ大きなスプレッドシートコーパスでは、テーブルフィールドの共有表現を学習できることが示される。
論文 参考訳(メタデータ) (2020-08-24T15:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。