論文の概要: Hybrid Graphs for Table-and-Text based Question Answering using LLMs
- arxiv url: http://arxiv.org/abs/2501.17767v1
- Date: Wed, 29 Jan 2025 16:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:46.572801
- Title: Hybrid Graphs for Table-and-Text based Question Answering using LLMs
- Title(参考訳): LLMを用いた表とテキストによる質問応答のためのハイブリッドグラフ
- Authors: Ankush Agarwal, Ganesh S, Chaitanya Devaguptapu,
- Abstract要約: テーブルテキストQAのための新しいハイブリッドグラフベースのアプローチを提案する。
我々は,Hybrid-QAデータセットとOTT-QAデータセットに対するアプローチを評価した。
本手法は,両方のデータセット上で最高のゼロショット性能を実現する。
- 参考スコア(独自算出の注目度): 2.3759432635713895
- License:
- Abstract: Answering questions that require reasoning and aggregation across both structured (tables) and unstructured (raw text) data sources presents significant challenges. Current methods rely on fine-tuning and high-quality, human-curated data, which is difficult to obtain. Recent advances in Large Language Models (LLMs) have shown promising results for multi-hop question answering (QA) over single-source text data in a zero-shot setting, yet exploration into multi-source Table-Text QA remains limited. In this paper, we present a novel Hybrid Graph-based approach for Table-Text QA that leverages LLMs without fine-tuning. Our method constructs a unified Hybrid Graph from textual and tabular data, pruning information based on the input question to provide the LLM with relevant context concisely. We evaluate our approach on the challenging Hybrid-QA and OTT-QA datasets using state-of-the-art LLMs, including GPT-3.5, GPT-4, and LLaMA-3. Our method achieves the best zero-shot performance on both datasets, improving Exact Match scores by up to 10% on Hybrid-QA and 5.4% on OTT-QA. Moreover, our approach reduces token usage by up to 53% compared to the original context.
- Abstract(参考訳): 構造化された(テーブル)と構造化されていない(生のテキスト)データソースの両方にわたる推論と集約を必要とする質問に対する回答は、重大な課題を示します。
現在の手法は微調整で高品質な人為的なデータに依存しており、入手は困難である。
近年のLarge Language Models (LLMs) の進歩は、ゼロショット設定での単一ソーステキストデータに対するマルチホップ質問応答(QA)の有望な結果を示しているが、マルチソースのTable-Text QAについての調査は限られている。
本稿では,LLMを微調整なしで活用するテーブルテキストQAのためのハイブリッドグラフベースのアプローチを提案する。
本手法は,テキストデータと表データから統合されたハイブリッドグラフを構築し,入力された質問に基づいて情報を抽出し,関連するコンテキストを簡潔にLLMに提供する。
我々は,GPT-3.5,GPT-4,LLaMA-3を含む最先端のLCMを用いて,ハイブリッドQAおよびTT-QAデータセットの挑戦的評価を行った。
提案手法は両データセットで最高のゼロショット性能を達成し, ハイブリットQAでは最大10%, OTT-QAでは5.4%, Exact Matchスコアは最大10%向上した。
さらに,従来のコンテキストと比較してトークン使用率を最大53%削減する。
関連論文リスト
- Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA [9.659820850719413]
我々は,推論能力の強い大規模言語モデル(LLM)を自動データアノテータとして活用する。
私たちの方法における重要な革新は、Synthesize Step-by-Step戦略にあります。
我々は、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T03:02:27Z) - Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data [29.07028542633284]
テーブル・トゥ・テキスト生成は、ハイブリッドデータの一様テキスト形式のコーパスへの変換を容易にする、有望なソリューションである。
現在、異なるテーブル・ツー・テキスト・メソッドによって生成されたコーパスがQAシステムの性能に与える影響について比較分析は行われていない。
本稿では,LLMベースのQAシステムをドメインハイブリッドデータで拡張するフレームワークに,テーブル・ツー・テキスト生成を革新的に統合する。
論文 参考訳(メタデータ) (2024-02-20T10:00:58Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - MMHQA-ICL: Multimodal In-context Learning for Hybrid Question Answering
over Text, Tables and Images [24.17147521556083]
コンテキスト内学習はQA問題を解決する最も一般的な方法となっている。
この問題に対処するためのMMHQA-ICLフレームワークを提案する。
私たちは、このタスクにエンドツーエンドのプロンプトメソッドを最初に使用しています。
論文 参考訳(メタデータ) (2023-09-09T13:35:01Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation [32.83012699501051]
我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。
ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
論文 参考訳(メタデータ) (2022-05-25T09:28:21Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。