論文の概要: Interpretable LLM-based Table Question Answering
- arxiv url: http://arxiv.org/abs/2412.12386v1
- Date: Mon, 16 Dec 2024 22:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:34.112228
- Title: Interpretable LLM-based Table Question Answering
- Title(参考訳): LLMによるテーブル質問応答の解釈
- Authors: Giang, Nguyen, Ivan Brugere, Shubham Sharma, Sanjay Kariyappa, Anh Totti Nguyen, Freddy Lecue,
- Abstract要約: Plan-of-inputs(POS)は、テーブルQAに対する解釈可能で効果的で効率的なアプローチである。
提案手法では, POSが最も好まれており, モデル決定境界の理解を支援し, モデル成功と誤り識別を容易にする。
- 参考スコア(独自算出の注目度): 5.940265173828534
- License:
- Abstract: Interpretability for Table Question Answering (Table QA) is critical, particularly in high-stakes industries like finance or healthcare. Although recent approaches using Large Language Models (LLMs) have significantly improved Table QA performance, their explanations for how the answers are generated are ambiguous. To fill this gap, we introduce Plan-of-SQLs ( or POS), an interpretable, effective, and efficient approach to Table QA that answers an input query solely with SQL executions. Through qualitative and quantitative evaluations with human and LLM judges, we show that POS is most preferred among explanation methods, helps human users understand model decision boundaries, and facilitates model success and error identification. Furthermore, when evaluated in standard benchmarks (TabFact, WikiTQ, and FetaQA), POS achieves competitive or superior accuracy compared to existing methods, while maintaining greater efficiency by requiring significantly fewer LLM calls and database queries.
- Abstract(参考訳): テーブル質問回答の解釈可能性 (Table QA) は、特に金融や医療といった高度な産業において重要である。
近年のLarge Language Models (LLMs) によるテーブルQAのパフォーマンスは大幅に改善されているが,その解法に関する説明は曖昧である。
このギャップを埋めるために、我々はPlan-of-SQLs (POS)を導入します。これはSQLの実行のみで入力クエリに応答するテーブルQAに対して、解釈可能で効果的で効率的なアプローチです。
ヒトとLLMの審査員による質的、定量的な評価を通じて、POSは説明手法で最も好まれており、人間のユーザがモデル決定境界を理解するのを助け、モデルの成功と誤りの識別を容易にする。
さらに、標準ベンチマーク(TabFact、WikiTQ、FetaQA)で評価すると、POSは従来の方法に比べて競合的または優れた精度を実現し、LLM呼び出しやデータベースクエリを著しく少なくすることで効率を向上する。
関連論文リスト
- Exploring Performance Contrasts in TableQA: Step-by-Step Reasoning Boosts Bigger Language Models, Limits Smaller Language Models [6.083393426133172]
本稿では,大小言語モデル(LM)の性能コントラストを検討するために,テーブル論理(Table-Logic)と呼ばれる詳細なプロンプトフローを提案する。
本手法の展開により,Llama-3-70Bのような大型LMにおいて,HybridQA上のバニラに比べて7.8%の精度向上が見られた。
本研究は,小型モデルにおけるステップ・バイ・ステップの推論手法の限界を浮き彫りにし,改善のための潜在的洞察を提供するものである。
論文 参考訳(メタデータ) (2024-11-24T22:48:44Z) - SynTQA: Synergistic Table-based Question Answering via Mixture of Text-to-SQL and E2E TQA [25.09488366689108]
テキスト・ツー・パースとエンドツーエンド質問応答(E2E TQA)は、表に基づく質問回答タスクの2つの主要なアプローチである。
複数のベンチマークで成功したが、まだ比較されておらず、相乗効果は未解明のままである。
ベンチマークデータセットの最先端モデルを評価することによって、さまざまな長所と短所を識別する。
論文 参考訳(メタデータ) (2024-09-25T07:18:45Z) - Seek and Solve Reasoning for Table Question Answering [49.006950918895306]
本稿では,大規模言語モデルの推論機能を活用して,表に基づく質問応答(TQA)の性能を向上させる。
人間がTQAタスクを解く方法に触発されて、私たちはLLMにまず関連する情報を求め、質問に答えるように指示するSeek-and-seekパイプラインを提案します。
本稿では,パイプラインから抽出した単一段TQA分解プロンプトについて述べる。
論文 参考訳(メタデータ) (2024-09-09T02:41:00Z) - Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation [10.726734105960924]
大規模言語モデル(LLM)は、テキストからタスクへの微調整アプローチを大幅に上回る、ICL(In-context Learning)ベースの手法を実現している。
本研究は,LLMのプロンプトに対する感受性を考察し,複数のプロンプトを活用してより広い探索空間を探索する手法を提案する。
生成したクエリの精度と効率の両面から,BIRD上に新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-05-13T04:59:32Z) - TabSQLify: Enhancing Reasoning Capabilities of LLMs Through Table Decomposition [6.253771639590562]
テーブル推論は、自然言語の質問と構造化データの両方を理解する必要がある難しいタスクである。
テキスト・ツー・ジェネレーションを利用したテーブルを,より小さく,関連するサブテーブルに分解する新しい方法であるTabifyを提案する。
WikiTQベンチマークでは,64.7%の精度で精度が向上した。
論文 参考訳(メタデータ) (2024-04-15T21:42:20Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - A Survey of Table Reasoning with Large Language Models [55.2326738851157]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。
LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。
本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文 参考訳(メタデータ) (2024-02-13T07:17:52Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。