論文の概要: Interpretable LLM-based Table Question Answering
- arxiv url: http://arxiv.org/abs/2412.12386v3
- Date: Sat, 28 Jun 2025 18:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:38.766711
- Title: Interpretable LLM-based Table Question Answering
- Title(参考訳): LLMによるテーブル質問応答の解釈
- Authors: Giang Nguyen, Ivan Brugere, Shubham Sharma, Sanjay Kariyappa, Anh Totti Nguyen, Freddy Lecue,
- Abstract要約: テーブル質問回答(Table QA)の解釈可能性は非常に重要です。
本稿では,モデルの意思決定過程を解釈可能なテーブルQA法を提案する。
- 参考スコア(独自算出の注目度): 5.484058026469263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability in Table Question Answering (Table QA) is critical, especially in high-stakes domains like finance and healthcare. While recent Table QA approaches based on Large Language Models (LLMs) achieve high accuracy, they often produce ambiguous explanations of how answers are derived. We propose Plan-of-SQLs (POS), a new Table QA method that makes the model's decision-making process interpretable. POS decomposes a question into a sequence of atomic steps, each directly translated into an executable SQL command on the table, thereby ensuring that every intermediate result is transparent. Through extensive experiments, we show that: First, POS generates the highest-quality explanations among compared methods, which markedly improves the users' ability to simulate and verify the model's decisions. Second, when evaluated on standard Table QA benchmarks (TabFact, WikiTQ, and FeTaQA), POS achieves QA accuracy that is competitive to existing methods, while also offering greater efficiency-requiring significantly fewer LLM calls and table database queries (up to 25x fewer)-and more robust performance on large-sized tables. Finally, we observe high agreement (up to 90.59% in forward simulation) between LLMs and human users when making decisions based on the same explanations, suggesting that LLMs could serve as an effective proxy for humans in evaluating Table QA explanations.
- Abstract(参考訳): テーブル質問回答(Table QA)の解釈可能性は非常に重要です。
近年,Large Language Models (LLMs) に基づくテーブルQAアプローチは高い精度を達成している。
我々は,モデルの意思決定プロセスを解釈可能なテーブルQA法であるPlan-of-SQLs (POS)を提案する。
POSは質問を一連のアトミックステップに分解し、それぞれがテーブル上の実行可能SQLコマンドに直接変換される。
まず、POSは比較手法の中で最も高品質な説明を生成し、モデルの判断をシミュレートし検証する能力を大幅に向上させる。
第2に、標準的なテーブルQAベンチマーク(TabFact、WikiTQ、FeTaQA)で評価されると、POSは既存のメソッドと競合するQAの精度を達成します。
最後に、同じ説明に基づいて意思決定を行う場合、LLMと人間ユーザの間で高い合意(前方シミュレーションで最大90.59%)が得られ、テーブルQAの説明を評価する上で、LLMが効果的なプロキシとして機能する可能性が示唆された。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。
本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts [62.45232157149698]
本稿では,同じ質問に対して仮定を課し,グラフの内容に基づいた反実的推論を行うようモデルに強制する,新しいChart hypothetical Question Answering (HQA)タスクを提案する。
さらに,MLLMの効率的なテキスト編集機能と人間の知識を併用して,多種多様な高品質HQAデータを低コストで生成する,人間とAIの対話型データ合成手法であるHAIを導入する。
論文 参考訳(メタデータ) (2025-03-06T05:08:40Z) - Protecting multimodal large language models against misleading visualizations [94.71976205962527]
誤解を招くビジュアライゼーションの性能を改善するための最初の推論時間手法を紹介する。
MLLM問合せ精度は, 平均値からランダム基準値まで低下することがわかった。
論文 参考訳(メタデータ) (2025-02-27T20:22:34Z) - Benchmarking Table Comprehension In The Wild [9.224698222634789]
TableQuestは、LLM(Large Language Models)の全体的なテーブル理解能力を評価するために設計された新しいベンチマークである。
我々は7つの最先端モデルを用いて実験を行い、事実の特定に妥当な精度にもかかわらず、より洗練された推論や多段階の計算を行うために必要な場合には、しばしばフェールすることを示した。
論文 参考訳(メタデータ) (2024-12-13T05:52:37Z) - Exploring Performance Contrasts in TableQA: Step-by-Step Reasoning Boosts Bigger Language Models, Limits Smaller Language Models [6.083393426133172]
本稿では,大小言語モデル(LM)の性能コントラストを検討するために,テーブル論理(Table-Logic)と呼ばれる詳細なプロンプトフローを提案する。
本手法の展開により,Llama-3-70Bのような大型LMにおいて,HybridQA上のバニラに比べて7.8%の精度向上が見られた。
本研究は,小型モデルにおけるステップ・バイ・ステップの推論手法の限界を浮き彫りにし,改善のための潜在的洞察を提供するものである。
論文 参考訳(メタデータ) (2024-11-24T22:48:44Z) - SynTQA: Synergistic Table-based Question Answering via Mixture of Text-to-SQL and E2E TQA [25.09488366689108]
テキスト・ツー・パースとエンドツーエンド質問応答(E2E TQA)は、表に基づく質問回答タスクの2つの主要なアプローチである。
複数のベンチマークで成功したが、まだ比較されておらず、相乗効果は未解明のままである。
ベンチマークデータセットの最先端モデルを評価することによって、さまざまな長所と短所を識別する。
論文 参考訳(メタデータ) (2024-09-25T07:18:45Z) - MalAlgoQA: Pedagogical Evaluation of Counterfactual Reasoning in Large Language Models and Implications for AI in Education [2.872215065231376]
本稿では,MalAlgoQAを提案する。MalAlgoQAは,大規模言語モデルの対実的推論能力を評価するために設計されたデータセットである。
MalAlgoQAの核心は、誤った答えの選択の裏にある、不完全で論理的に一貫性のある推論経路の理論的根拠である。
論文 参考訳(メタデータ) (2024-07-01T03:39:13Z) - Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - TabSQLify: Enhancing Reasoning Capabilities of LLMs Through Table Decomposition [6.253771639590562]
テーブル推論は、自然言語の質問と構造化データの両方を理解する必要がある難しいタスクである。
テキスト・ツー・ジェネレーションを利用したテーブルを,より小さく,関連するサブテーブルに分解する新しい方法であるTabifyを提案する。
WikiTQベンチマークでは,64.7%の精度で精度が向上した。
論文 参考訳(メタデータ) (2024-04-15T21:42:20Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - A Survey of Table Reasoning with Large Language Models [55.2326738851157]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。
LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。
本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文 参考訳(メタデータ) (2024-02-13T07:17:52Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。