論文の概要: Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning
- arxiv url: http://arxiv.org/abs/2407.20174v2
- Date: Sun, 11 Aug 2024 05:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 20:23:30.207646
- Title: Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning
- Title(参考訳): ビジュアライゼーション・インストラクション・チューニングを用いたチャート質問応答における多モーダル大言語モデルの改善
- Authors: Xingchen Zeng, Haichuan Lin, Yilin Ye, Wei Zeng,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
- 参考スコア(独自算出の注目度): 1.6570772838074355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging multimodal large language models (MLLMs) exhibit great potential for chart question answering (CQA). Recent efforts primarily focus on scaling up training datasets (i.e., charts, data tables, and question-answer (QA) pairs) through data collection and synthesis. However, our empirical study on existing MLLMs and CQA datasets reveals notable gaps. First, current data collection and synthesis focus on data volume and lack consideration of fine-grained visual encodings and QA tasks, resulting in unbalanced data distribution divergent from practical CQA scenarios. Second, existing work follows the training recipe of the base MLLMs initially designed for natural images, under-exploring the adaptation to unique chart characteristics, such as rich text elements. To fill the gap, we propose a visualization-referenced instruction tuning approach to guide the training dataset enhancement and model development. Specifically, we propose a novel data engine to effectively filter diverse and high-quality data from existing datasets and subsequently refine and augment the data using LLM-based generation techniques to better align with practical QA tasks and visual encodings. Then, to facilitate the adaptation to chart characteristics, we utilize the enriched data to train an MLLM by unfreezing the vision encoder and incorporating a mixture-of-resolution adaptation strategy for enhanced fine-grained recognition. Experimental results validate the effectiveness of our approach. Even with fewer training examples, our model consistently outperforms state-of-the-art CQA models on established benchmarks. We also contribute a dataset split as a benchmark for future research. Source codes and datasets of this paper are available at https://github.com/zengxingchen/ChartQA-MLLM.
- Abstract(参考訳): MLLM (Emerging multimodal large language model) は、チャート質問応答 (CQA) に大きな可能性を示す。
近年の取り組みは、データ収集と合成を通じてトレーニングデータセット(チャート、データテーブル、質問応答(QA)ペア)のスケールアップに重点を置いている。
しかし、既存のMLLMとCQAデータセットに関する実証研究により、顕著なギャップが明らかとなった。
まず、現在のデータ収集と合成はデータ量に重点を置いており、細粒度の視覚的エンコーディングやQAタスクを考慮していないため、実際のCQAシナリオとは相容れない。
第二に、既存の研究は、もともと自然画像用に設計された基本MLLMのトレーニングレシピに従い、リッチテキスト要素のようなユニークなチャート特性への適応を探索している。
このギャップを埋めるために、トレーニングデータセットの強化とモデル開発をガイドする可視化参照型指導チューニング手法を提案する。
具体的には、既存のデータセットから多種多様な高品質なデータを効果的にフィルタリングし、LLMベースの生成技術を用いてデータを洗練・拡張し、実用的なQAタスクや視覚的エンコーディングとの整合性を向上する新しいデータエンジンを提案する。
そこで, 図形特性への適応を容易にするため, リッチなデータを用いて視覚エンコーダを解凍してMLLMを訓練し, 微粒化認識のための混合解像度適応戦略を取り入れた。
提案手法の有効性を実験的に検証した。
トレーニングの例が少なくても、我々のモデルは確立したベンチマークで最先端のCQAモデルよりも一貫して優れています。
また、将来の研究のベンチマークとしてデータセット分割も提供します。
本論文のソースコードとデータセットはhttps://github.com/zengxingchen/ChartQA-MLLMで公開されている。
関連論文リスト
- On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Exploring Prompting Methods for Mitigating Class Imbalance through Synthetic Data Generation with Large Language Models [39.347666307218006]
大規模言語モデル (LLMs) は、様々な領域にまたがるコンテキスト内学習能力を示す。
そこで本研究では,クラス不均衡を緩和する現実的なデータ生成におけるLLMの有効性について検討した。
この結果から, CSV形式, バランスクラス, ユニークな変数マッピングを用いることで, 現実的で信頼性の高いデータを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning [4.8838210812204235]
本稿では,対象言語に1つの例があるICLを用いて生成されたデータセットに対して,半教師付き学習手法であるGeMQuADを提案する。
我々は、特に低リソースの多言語設定において、モデル性能を向上させるために、高品質なデータを反復的に識別する。
我々のフレームワークは、ヒンディー語で0.22/1.68 F1/EMポイント、MLQAデータセットでスペイン語で0.82/1.37 F1/EMポイントで機械翻訳拡張モデルより優れています。
論文 参考訳(メタデータ) (2024-04-14T06:55:42Z) - Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA [9.659820850719413]
我々は,推論能力の強い大規模言語モデル(LLM)を自動データアノテータとして活用する。
私たちの方法における重要な革新は、Synthesize Step-by-Step戦略にあります。
我々は、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T03:02:27Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。