論文の概要: Interpretable LLM-based Table Question Answering
- arxiv url: http://arxiv.org/abs/2412.12386v2
- Date: Wed, 02 Apr 2025 22:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:54:32.329137
- Title: Interpretable LLM-based Table Question Answering
- Title(参考訳): LLMによるテーブル質問応答の解釈
- Authors: Giang Nguyen, Ivan Brugere, Shubham Sharma, Sanjay Kariyappa, Anh Totti Nguyen, Freddy Lecue,
- Abstract要約: Plan-of-s (POS) は、モデルの意思決定に対するユーザの理解を改善するために設計された、解釈可能なテーブルQAアプローチである。
POSは,人間のモデル動作の理解を助け,モデル予測の検証を容易にする,高品質な説明手法であることを示す。
同じ説明に基づいて意思決定を行う際に、LLMと人間ユーザの間で高い合意(最大90%)を観察する。
- 参考スコア(独自算出の注目度): 5.484058026469263
- License:
- Abstract: Interpretability for Table Question Answering (Table QA) is critical, particularly in high-stakes industries like finance or healthcare. Although recent approaches using Large Language Models (LLMs) have significantly improved Table QA performance, their explanations for how the answers are generated are ambiguous. To fill this gap, we introduce Plan-of-SQLs (POS), an interpretable Table QA approach designed to improve users' understanding of model decision-making. Through qualitative and quantitative evaluations with human and LLM judges, we show that: First, POS is the highest-quality explanation method, helps human users understand model behaviors, and facilitates model prediction verification. Second, when evaluated on popular and standard Table QA datasets (TabFact, WikiTQ, and FetaQA), POS achieves QA accuracy that is competitive with or superior to existing methods, while also offering greater efficiency-requiring significantly fewer LLM calls and table database queries-and robust performance on large-sized tables. Finally, we observe high agreement (up to 90%) between LLMs and human users when making decisions based on the same explanations, suggesting that LLMs could serve as an effective proxy for humans in evaluating explanations. This finding enables faster, more affordable evaluation of AI explanations-possibly accelerating trustworthy AI research while maintaining reliable judgments on interpretability.
- Abstract(参考訳): テーブル質問回答の解釈可能性 (Table QA) は、特に金融や医療といった高度な産業において重要である。
近年のLarge Language Models (LLMs) によるテーブルQAのパフォーマンスは大幅に改善されているが,その解法に関する説明は曖昧である。
このギャップを埋めるために、モデルの意思決定に対するユーザの理解を改善するために、解釈可能なテーブルQAアプローチであるPlan-of-SQLs (POS)を導入する。
まず、POSは高品質な説明方法であり、モデルの振る舞いを理解し、モデル予測の検証を容易にする。
第2に、人気のある標準のテーブルQAデータセット(TabFact、WikiTQ、FetaQA)で評価されると、POSは既存のメソッドと競合するか、あるいは優位に立つQAの精度を達成します。
最後に,同じ説明に基づいて意思決定を行う場合,LLMと人間ユーザの間では最大90%の高合意が達成され,LLMが人間の説明を評価する上で有効なプロキシとなる可能性が示唆された。
この発見は、信頼性の高いAI研究を加速しつつ、解釈可能性に関する信頼性の高い判断を維持しながら、AI説明の迅速で安価な評価を可能にする。
関連論文リスト
- Benchmarking Table Comprehension In The Wild [9.224698222634789]
TableQuestは、LLM(Large Language Models)の全体的なテーブル理解能力を評価するために設計された新しいベンチマークである。
我々は7つの最先端モデルを用いて実験を行い、事実の特定に妥当な精度にもかかわらず、より洗練された推論や多段階の計算を行うために必要な場合には、しばしばフェールすることを示した。
論文 参考訳(メタデータ) (2024-12-13T05:52:37Z) - Exploring Performance Contrasts in TableQA: Step-by-Step Reasoning Boosts Bigger Language Models, Limits Smaller Language Models [6.083393426133172]
本稿では,大小言語モデル(LM)の性能コントラストを検討するために,テーブル論理(Table-Logic)と呼ばれる詳細なプロンプトフローを提案する。
本手法の展開により,Llama-3-70Bのような大型LMにおいて,HybridQA上のバニラに比べて7.8%の精度向上が見られた。
本研究は,小型モデルにおけるステップ・バイ・ステップの推論手法の限界を浮き彫りにし,改善のための潜在的洞察を提供するものである。
論文 参考訳(メタデータ) (2024-11-24T22:48:44Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - SynTQA: Synergistic Table-based Question Answering via Mixture of Text-to-SQL and E2E TQA [25.09488366689108]
テキスト・ツー・パースとエンドツーエンド質問応答(E2E TQA)は、表に基づく質問回答タスクの2つの主要なアプローチである。
複数のベンチマークで成功したが、まだ比較されておらず、相乗効果は未解明のままである。
ベンチマークデータセットの最先端モデルを評価することによって、さまざまな長所と短所を識別する。
論文 参考訳(メタデータ) (2024-09-25T07:18:45Z) - MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation [10.726734105960924]
大規模言語モデル(LLM)は、テキストからタスクへの微調整アプローチを大幅に上回る、ICL(In-context Learning)ベースの手法を実現している。
本研究は,LLMのプロンプトに対する感受性を考察し,複数のプロンプトを活用してより広い探索空間を探索する手法を提案する。
生成したクエリの精度と効率の両面から,BIRD上に新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-05-13T04:59:32Z) - TabSQLify: Enhancing Reasoning Capabilities of LLMs Through Table Decomposition [6.253771639590562]
テーブル推論は、自然言語の質問と構造化データの両方を理解する必要がある難しいタスクである。
テキスト・ツー・ジェネレーションを利用したテーブルを,より小さく,関連するサブテーブルに分解する新しい方法であるTabifyを提案する。
WikiTQベンチマークでは,64.7%の精度で精度が向上した。
論文 参考訳(メタデータ) (2024-04-15T21:42:20Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - A Survey of Table Reasoning with Large Language Models [55.2326738851157]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。
LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。
本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文 参考訳(メタデータ) (2024-02-13T07:17:52Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。