論文の概要: Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA
- arxiv url: http://arxiv.org/abs/2403.16385v1
- Date: Mon, 25 Mar 2024 03:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:17:05.294933
- Title: Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA
- Title(参考訳): ステップバイステップの合成:Reasoning-based Chart VQAのデータジェネレータとしてのツール,テンプレート,LLM
- Authors: Li Zhuowan, Jasani Bhavan, Tang Peng, Ghadar Shabnam,
- Abstract要約: 我々は,推論能力の強い大規模言語モデル(LLM)を自動データアノテータとして活用する。
私たちの方法における重要な革新は、Synthesize Step-by-Step戦略にあります。
我々は、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端の精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding data visualizations like charts and plots requires reasoning about both visual elements and numerics. Although strong in extractive questions, current chart visual question answering (chart VQA) models suffer on complex reasoning questions. In this work, we address the lack of reasoning ability by data augmentation. We leverage Large Language Models (LLMs), which have shown to have strong reasoning ability, as an automatic data annotator that generates question-answer annotations for chart images. The key innovation in our method lies in the Synthesize Step-by-Step strategy: our LLM-based data generator learns to decompose the complex question into step-by-step sub-questions (rationales), which are then used to derive the final answer using external tools, i.e. Python. This step-wise generation procedure is trained on synthetic data generated using a template-based QA generation pipeline. Experimental results highlight the significance of the proposed step-by-step generation. By training with the LLM-augmented data (LAMENDA), we significantly enhance the chart VQA models, achieving the state-of-the-art accuracy on the ChartQA and PlotQA datasets. In particular, our approach improves the accuracy of the previous state-of-the-art approach from 38% to 54% on the human-written questions in the ChartQA dataset, which needs strong reasoning. We hope our work underscores the potential of synthetic data and encourages further exploration of data augmentation using LLMs for reasoning-heavy tasks.
- Abstract(参考訳): チャートやプロットのようなデータの視覚化を理解するには、ビジュアル要素と数値の両方について推論する必要がある。
抽出的質問では強いが、現在のチャートの視覚的質問応答(チャートVQA)モデルは複雑な推論問題に悩まされる。
本研究では,データ拡張による推論能力の欠如に対処する。
我々は,グラフ画像に対する問合せアノテーションを生成する自動データアノテータとして,推論能力の強い大規模言語モデル(LLM)を活用している。
LLMベースのデータジェネレータは、複雑な質問をステップバイステップのサブクエスト(有理数)に分解して、外部ツール、すなわちPythonを使って最終回答を導出します。
このステップワイズ生成手順は、テンプレートベースのQA生成パイプラインを用いて生成された合成データに基づいて訓練される。
実験結果は,提案したステップバイステップ生成の重要性を浮き彫りにした。
LLM拡張データ(LAMENDA)を用いてトレーニングすることにより、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端精度を達成する。
具体的には,従来の最先端アプローチの精度を,強い推論を必要とするChartQAデータセットの人間による質問では38%から54%に向上させる。
我々の研究は、合成データの可能性を強調し、LLMを用いたさらなるデータ拡張を推し進めることを期待しています。
関連論文リスト
- Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations [7.32619928577074]
本稿では,LLM生成データビジュアライゼーションの評価を自動化するために,VQA(Visual Question Answering)モデルを活用する新しいフレームワークを提案する。
以上の結果から,LLM 生成チャートは VQA の性能測定値に基づいて,元の非LLM 生成チャートの精度に合わないことが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:02:48Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文 参考訳(メタデータ) (2021-11-29T18:46:06Z) - DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文 参考訳(メタデータ) (2020-05-02T12:34:17Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。