論文の概要: Accurate and Regret-aware Numerical Problem Solver for Tabular Question Answering
- arxiv url: http://arxiv.org/abs/2410.12846v1
- Date: Thu, 10 Oct 2024 05:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:11:03.444421
- Title: Accurate and Regret-aware Numerical Problem Solver for Tabular Question Answering
- Title(参考訳): 質問応答の精度とレグレットを考慮した数値解法
- Authors: Yuxiang Wang, Jianzhong Qi, Junhao Gan,
- Abstract要約: 本研究では,大規模言語モデルを用いたTabLaPというモデルを提案する。
TabLaPは最先端のモデルよりもかなり正確であることを示し、2つのデータセットで解の精度を5.7%と5.8%改善した。
- 参考スコア(独自算出の注目度): 29.384514074911955
- License:
- Abstract: Question answering on free-form tables (a.k.a. TableQA) is a challenging task because of the flexible structure and the complex schema of tables. Recent studies use Large Language Models (LLMs) for this task, exploiting their capability in understanding the questions and tabular data which are typically given in natural language and contains many textual fields, respectively. While this approach has shown promising results, it overlooks the challenges brought by numerical values which are common in tabular data, while LLMs are known to struggle with such values. We aim to address this issue and answer numerical questions. We propose a model named TabLaP that uses LLMs as a planner rather than an answer generator, exploiting LLMs capability in multi-step reasoning while leaving the actual numerical calculations to a Python interpreter for accurate calculation. Recognizing the inaccurate nature of LLMs, we further make a first attempt to quantify the trustworthiness of the answers produced by TabLaP, such that users can use TabLaP in a regret-aware manner. Experimental results on two benchmark datasets show that TabLaP is substantially more accurate than the state-of-the-art models, improving the answer accuracy by 5.7% and 5.8% on the two datasets, respectively.
- Abstract(参考訳): 自由形式のテーブル(TableQA)に対する質問応答は、柔軟な構造とテーブルの複雑なスキーマのために難しい課題である。
近年の研究では、このタスクにLarge Language Models (LLM) を用いており、自然言語で典型的に与えられ、多くのテキストフィールドを含む質問や表データを理解する能力を活用している。
このアプローチは有望な結果を示しているが、グラフデータに共通する数値がもたらす課題を見逃し、LSMはそのような値に苦しむことが知られている。
我々はこの問題に対処し、数値的な疑問に答えることを目指している。
そこで我々は,多段階推論においてLLMの能力を活かし,実際の数値計算をPythonインタプリタに残して正確な計算を行う,TabLaPというモデルを提案する。
さらに,LLMの不正確な性質を認識し,TabLaPが生み出す回答の信頼性を定量的に評価し,ユーザが後悔を意識してTabLaPを使用できるようにした。
2つのベンチマークデータセットの実験結果は、TabLaPが最先端のモデルよりもかなり正確であることを示し、2つのデータセットでそれぞれ5.7%と5.8%の回答精度を改善した。
関連論文リスト
- TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies [9.09415727445941]
本稿では,この課題に対する潜在的な解決法として,HiddenTablesと呼ばれる協調ゲームを提案する。
エージェントがテーブルQAタスクを解く能力を評価するコード生成「r」と「Oracleウィンドウ」の間で「HiddenTables」が再生される。
複雑なクエリを一般化および実行できないLCMの集合性を実証する多種多様なテーブルの集合について明らかな実験を行う。
論文 参考訳(メタデータ) (2024-06-16T04:53:29Z) - Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - TabSQLify: Enhancing Reasoning Capabilities of LLMs Through Table Decomposition [6.253771639590562]
テーブル推論は、自然言語の質問と構造化データの両方を理解する必要がある難しいタスクである。
テキスト・ツー・ジェネレーションを利用したテーブルを,より小さく,関連するサブテーブルに分解する新しい方法であるTabifyを提案する。
WikiTQベンチマークでは,64.7%の精度で精度が向上した。
論文 参考訳(メタデータ) (2024-04-15T21:42:20Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - TABLET: Learning From Instructions For Tabular Data [46.62140500101618]
TABLETは、20の多様なデータセットのベンチマークで、その説明、粒度、技術的に異なる命令をアノテートする。
テキスト内命令はFlan-T5 11bのゼロショットF1性能を平均44%向上し,TABLETのChatGPTは13%向上した。
論文 参考訳(メタデータ) (2023-04-25T23:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。