Fugu-MT 論文翻訳(概要): On the Robustness of Language Models for Tabular Question Answering

論文の概要: On the Robustness of Language Models for Tabular Question Answering

arxiv url: http://arxiv.org/abs/2406.12719v1
Date: Tue, 18 Jun 2024 15:41:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 18:18:55.591326
Title: On the Robustness of Language Models for Tabular Question Answering
Title（参考訳）: 質問応答における言語モデルのロバスト性について
Authors: Kushal Raj Bhandari, Sixue Xing, Soham Dan, Jianxi Gao,
Abstract要約: 大規模言語モデル(LLM)は、特定の訓練なしにテーブル理解タスクに取り組むことが示されている。我々は、ウィキペディアベースの$textbfWTQ$および財務報告ベースの$textbfTAT-QA$TQAデータセット上でLLMの堅牢性を評価する。
参考スコア（独自算出の注目度）: 7.486549276995143
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs), originally shown to ace various text comprehension tasks have also remarkably been shown to tackle table comprehension tasks without specific training. While previous research has explored LLM capabilities with tabular dataset tasks, our study assesses the influence of $\textit{in-context learning}$,$ \textit{model scale}$, $\textit{instruction tuning}$, and $\textit{domain biases}$ on Tabular Question Answering (TQA). We evaluate the robustness of LLMs on Wikipedia-based $\textbf{WTQ}$ and financial report-based $\textbf{TAT-QA}$ TQA datasets, focusing on their ability to robustly interpret tabular data under various augmentations and perturbations. Our findings indicate that instructions significantly enhance performance, with recent models like Llama3 exhibiting greater robustness over earlier versions. However, data contamination and practical reliability issues persist, especially with WTQ. We highlight the need for improved methodologies, including structure-aware self-attention mechanisms and better handling of domain-specific tabular data, to develop more reliable LLMs for table comprehension.
Abstract（参考訳）: 大規模言語モデル(LLM)は、もともと様々なテキスト理解タスクをこなすために示され、特定の訓練なしにテーブル理解タスクに取り組むことが顕著に示されている。従来の研究は,表付きデータセットタスクを用いたLCM機能について検討してきたが,本研究では,$\textit{in-context learning}$,$ \textit{model scale}$,$\textit{instruction tuning}$,$\textit{ biases}$ on Tabular Question Answering (TQA)の影響を評価した。我々は、ウィキペディアベースの$\textbf{WTQ}$および財務報告ベースの$\textbf{TAT-QA}$TQAデータセット上でのLCMの堅牢性を評価し、様々な拡張と摂動の下で表形式のデータを堅牢に解釈できることに焦点を当てた。以上の結果から,Llama3のような最近のモデルでは,従来のモデルよりもロバスト性が高いことが示唆された。しかし、特にWTQでは、データ汚染と実用的な信頼性の問題が続いている。本稿では、テーブル理解のための信頼性の高いLCMを開発するために、構造認識型自己認識機構やドメイン固有の表データ処理の改善など、改善された方法論の必要性を強調した。

関連論文リスト

Decompositional Reasoning for Graph Retrieval with Large Language Models [1.034893617526558]
大規模言語モデル(LLM)は多くのNLPタスクに優れるが、マルチホップ推論と現実の一貫性に苦しむ。本稿では,テキスト知識グラフをクエリ分解によるLLM推論プロセスに統合する新しい検索手法を提案する。本手法は,複雑な質問をサブクエストに分解し,関連するテキストのサブグラフを検索し,質問固有の知識グラフを作成して回答生成を誘導する。
論文参考訳（メタデータ） (2025-06-16T11:44:28Z)
LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文参考訳（メタデータ） (2025-06-06T05:14:04Z)
Automated Text-to-Table for Reasoning-Intensive Table QA: Pipeline Design and Benchmarking Insights [45.5276155343796]
本稿では,数式語問題をテーブルベースの推論タスクに変換する自動生成パイプラインAutoT2Tを提案する。パイプラインは同じ推論問題に対して、堅牢性評価をサポートするノイズの多いバージョンを含む、テーブルの複数の変種を生成することができる。 AutoT2TとTabularGSMによる実験的分析により、複雑なテーブルQAタスクにおけるLCMの失敗の根底にある要因は、推論と検索と識別プロセスの密結合であることが明らかとなった。
論文参考訳（メタデータ） (2025-05-26T06:24:31Z)
NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables [32.9031799179503]
NeedleInATable (NIAT) は、各テーブルセルを"ニードル"として扱い、異なるクエリでターゲットセルを抽出するモデルを必要とする新しいタスクである。本稿では,モデルの長期理解能力を高めるためのデータ合成手法を提案する。
論文参考訳（メタデータ） (2025-04-09T03:46:56Z)
Enhancing LLM Robustness to Perturbed Instructions: An Empirical Study [8.827173113748701]
ダウンストリーム性能を著しく低下させるタスク特化命令の文字・単語レベルの編集について検討した。平均的に、自己否定は、代替戦略よりも大幅に高いパフォーマンス向上を達成することが分かっています。
論文参考訳（メタデータ） (2025-04-03T16:17:56Z)
TableMaster: A Recipe to Advance Table Understanding with Language Models [0.0]
TableMasterはレシピと包括的なフレームワークで、これらの障害を克服するために複数のソリューションを統合する。 WikiTQデータセットでは、GPT-4o-miniを使用して78.13%の精度を達成し、既存のベースラインを上回っている。
論文参考訳（メタデータ） (2025-01-31T18:31:31Z)
TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-10-07T04:15:02Z)
Knowledge in Triples for LLMs: Enhancing Table QA Accuracy with Semantic Extraction [1.0968343822308813]
本稿では,表型データから直交三重項を抽出し,それを検索拡張生成(RAG)モデルに統合することにより,微調整GPT-3.5-turbo-0125モデルにより生成された応答の精度,コヒーレンス,コンテキスト的リッチ性を向上させる手法を提案する。 FeTaQAデータセットの既存のベースライン、特にSacre-BLEUとROUGEの指標に優れています。
論文参考訳（メタデータ） (2024-09-21T16:46:15Z)
Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文参考訳（メタデータ） (2024-07-22T20:13:10Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文参考訳（メタデータ） (2024-06-06T14:30:59Z)
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。 TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文参考訳（メタデータ） (2024-06-05T20:32:56Z)
Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.282770819829913]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文参考訳（メタデータ） (2024-03-29T14:41:21Z)
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。半構造化文書に適した新しいプロンプト技術を導入する。
論文参考訳（メタデータ） (2024-02-17T05:10:18Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。 FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文参考訳（メタデータ） (2023-11-15T12:02:52Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文参考訳（メタデータ） (2023-05-23T17:43:51Z)
Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。 LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文参考訳（メタデータ） (2023-05-22T14:23:46Z)
TABLET: Learning From Instructions For Tabular Data [46.62140500101618]
TABLETは、20の多様なデータセットのベンチマークで、その説明、粒度、技術的に異なる命令をアノテートする。テキスト内命令はFlan-T5 11bのゼロショットF1性能を平均44%向上し,TABLETのChatGPTは13%向上した。
論文参考訳（メタデータ） (2023-04-25T23:07:20Z)
Towards Table-to-Text Generation with Pretrained Language Model: A Table Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文参考訳（メタデータ） (2023-01-05T14:03:26Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。