論文の概要: ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding
- arxiv url: http://arxiv.org/abs/2409.03277v1
- Date: Thu, 5 Sep 2024 06:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 21:30:40.472492
- Title: ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding
- Title(参考訳): ChartMoE: 高度なチャート理解のためのエキスパートコネクタの混合
- Authors: Zhengzhuo Xu, Bowen Qu, Yiyan Qi, Sinan Du, Chengjin Xu, Chun Yuan, Jian Guo,
- Abstract要約: 本稿では,従来の線形プロジェクタを置き換えるために,専門家(MoE)アーキテクチャの混合を用いたChartMoEを提案する。
具体的には、異なるアライメントタスクを通じて複数の線形コネクタを訓練する。
ChartMoE-Alignも導入しています。これは900K以上のチャートテーブル-JSON-コードの4倍数を持つデータセットで、3つのアライメントタスクを実行します。
- 参考スコア(独自算出の注目度): 34.750274110196116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic chart understanding is crucial for content comprehension and document parsing. Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in chart understanding through domain-specific alignment and fine-tuning. However, the application of alignment training within the chart domain is still underexplored. To address this, we propose ChartMoE, which employs the mixture of expert (MoE) architecture to replace the traditional linear projector to bridge the modality gap. Specifically, we train multiple linear connectors through distinct alignment tasks, which are utilized as the foundational initialization parameters for different experts. Additionally, we introduce ChartMoE-Align, a dataset with over 900K chart-table-JSON-code quadruples to conduct three alignment tasks (chart-table/JSON/code). Combined with the vanilla connector, we initialize different experts in four distinct ways and adopt high-quality knowledge learning to further refine the MoE connector and LLM parameters. Extensive experiments demonstrate the effectiveness of the MoE connector and our initialization strategy, e.g., ChartMoE improves the accuracy of the previous state-of-the-art from 80.48% to 84.64% on the ChartQA benchmark.
- Abstract(参考訳): コンテンツ理解と文書解析には,自動チャート理解が不可欠である。
マルチモーダル大言語モデル(MLLM)は、ドメイン固有のアライメントと微調整によるチャート理解において顕著な能力を示した。
しかし、チャート領域におけるアライメントトレーニングの適用については、まだ未定である。
そこで我々は,従来の線形プロジェクタを代替してモダリティギャップを埋めるために,専門家(MoE)アーキテクチャを混合したChartMoEを提案する。
具体的には、異なるアライメントタスクを通じて複数のリニアコネクタをトレーニングし、異なる専門家の基本的な初期化パラメータとして活用する。
さらに、900K以上のチャートテーブル-JSONコードの4倍数を持つデータセットであるChartMoE-Alignを導入し、3つのアライメントタスク(chart-table/JSON/code)を実行する。
バニラコネクタと組み合わせて、異なる専門家を4つの異なる方法で初期化し、高品質な知識学習を採用して、MoEコネクタとLLMパラメータをさらに洗練する。
大規模な実験では、ChartQAベンチマークの80.48%から84.64%に、MoEコネクタとChartMoEの初期化戦略の有効性を実証している。
関連論文リスト
- SynChart: Synthesizing Charts from Language Models [50.73888371511983]
本研究は,LLMをデータ生成に単独で活用し,チャート理解に焦点をあてた競合するマルチモダリティモデルを開発する可能性を探る。
約400万の多彩なチャートイメージと7500万以上の高密度アノテーションを含む大規模チャートデータセットであるSynChartを構築した。
我々は,このデータセットを用いて4.2Bのグラフエキスパートモデルを訓練し,GPT-4Vを超え,ChartQAタスクでほぼGPT-4Oの性能を達成した。
論文 参考訳(メタデータ) (2024-09-25T00:18:12Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。
現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。
複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。