論文の概要: On the Robustness of Language Models for Tabular Question Answering
- arxiv url: http://arxiv.org/abs/2406.12719v1
- Date: Tue, 18 Jun 2024 15:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:18:55.591326
- Title: On the Robustness of Language Models for Tabular Question Answering
- Title(参考訳): 質問応答における言語モデルのロバスト性について
- Authors: Kushal Raj Bhandari, Sixue Xing, Soham Dan, Jianxi Gao,
- Abstract要約: 大規模言語モデル(LLM)は、特定の訓練なしにテーブル理解タスクに取り組むことが示されている。
我々は、ウィキペディアベースの$textbfWTQ$および財務報告ベースの$textbfTAT-QA$TQAデータセット上でLLMの堅牢性を評価する。
- 参考スコア(独自算出の注目度): 7.486549276995143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), originally shown to ace various text comprehension tasks have also remarkably been shown to tackle table comprehension tasks without specific training. While previous research has explored LLM capabilities with tabular dataset tasks, our study assesses the influence of $\textit{in-context learning}$,$ \textit{model scale}$, $\textit{instruction tuning}$, and $\textit{domain biases}$ on Tabular Question Answering (TQA). We evaluate the robustness of LLMs on Wikipedia-based $\textbf{WTQ}$ and financial report-based $\textbf{TAT-QA}$ TQA datasets, focusing on their ability to robustly interpret tabular data under various augmentations and perturbations. Our findings indicate that instructions significantly enhance performance, with recent models like Llama3 exhibiting greater robustness over earlier versions. However, data contamination and practical reliability issues persist, especially with WTQ. We highlight the need for improved methodologies, including structure-aware self-attention mechanisms and better handling of domain-specific tabular data, to develop more reliable LLMs for table comprehension.
- Abstract(参考訳): 大規模言語モデル(LLM)は、もともと様々なテキスト理解タスクをこなすために示され、特定の訓練なしにテーブル理解タスクに取り組むことが顕著に示されている。
従来の研究は,表付きデータセットタスクを用いたLCM機能について検討してきたが,本研究では,$\textit{in-context learning}$,$ \textit{model scale}$,$\textit{instruction tuning}$,$\textit{ biases}$ on Tabular Question Answering (TQA)の影響を評価した。
我々は、ウィキペディアベースの$\textbf{WTQ}$および財務報告ベースの$\textbf{TAT-QA}$TQAデータセット上でのLCMの堅牢性を評価し、様々な拡張と摂動の下で表形式のデータを堅牢に解釈できることに焦点を当てた。
以上の結果から,Llama3のような最近のモデルでは,従来のモデルよりもロバスト性が高いことが示唆された。
しかし、特にWTQでは、データ汚染と実用的な信頼性の問題が続いている。
本稿では、テーブル理解のための信頼性の高いLCMを開発するために、構造認識型自己認識機構やドメイン固有の表データ処理の改善など、改善された方法論の必要性を強調した。
関連論文リスト
- Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。
調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。
我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文 参考訳(メタデータ) (2024-07-22T20:13:10Z) - Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
この設定をよりよく評価し、モデリング作業を容易にするために、テーブルを通してのテキストと計算について紹介する。
TACTには、1つ以上のテキストに散在する縫合情報を要求し、この情報を複雑な統合して回答を生成する、困難な命令が含まれている。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.910306140400046]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning [58.11442663694328]
テーブルプロンプトを生成するための多用途前処理ツールボックスとして,TAP4LLMを提案する。
各モジュールにおいて、様々なシナリオで使用されるいくつかの一般的なメソッドを収集し、設計する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。
重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - TABLET: Learning From Instructions For Tabular Data [46.62140500101618]
TABLETは、20の多様なデータセットのベンチマークで、その説明、粒度、技術的に異なる命令をアノテートする。
テキスト内命令はFlan-T5 11bのゼロショットF1性能を平均44%向上し,TABLETのChatGPTは13%向上した。
論文 参考訳(メタデータ) (2023-04-25T23:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。