論文の概要: When TableQA Meets Noise: A Dual Denoising Framework for Complex Questions and Large-scale Tables
- arxiv url: http://arxiv.org/abs/2509.17680v1
- Date: Mon, 22 Sep 2025 12:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.369915
- Title: When TableQA Meets Noise: A Dual Denoising Framework for Complex Questions and Large-scale Tables
- Title(参考訳): TableQAがノイズに遭遇する時: 複雑な質問と大規模テーブルのためのデュアルデノイングフレームワーク
- Authors: Shenghao Ye, Yu Guo, Dong Jin, Yikai Shen, Yunpeng Hou, Shuangwu Chen, Jian Yang, Xiaofeng Jiang,
- Abstract要約: EnoTabは、複雑な質問と大規模テーブルのための2つのデノベーションフレームワークである。
まず,質問を最小のセマンティック単位に分解することで,エビデンスに基づく質問記述を行う。
次に,明示的で透明なテーブルプルーニングパスを構成するEvidence Tree-Guided Table Denoisingを提案する。
- 参考スコア(独自算出の注目度): 20.33076921920799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table question answering (TableQA) is a fundamental task in natural language processing (NLP). The strong reasoning capabilities of large language models (LLMs) have brought significant advances in this field. However, as real-world applications involve increasingly complex questions and larger tables, substantial noisy data is introduced, which severely degrades reasoning performance. To address this challenge, we focus on improving two core capabilities: Relevance Filtering, which identifies and retains information truly relevant to reasoning, and Table Pruning, which reduces table size while preserving essential content. Based on these principles, we propose EnoTab, a dual denoising framework for complex questions and large-scale tables. Specifically, we first perform Evidence-based Question Denoising by decomposing the question into minimal semantic units and filtering out those irrelevant to answer reasoning based on consistency and usability criteria. Then, we propose Evidence Tree-guided Table Denoising, which constructs an explicit and transparent table pruning path to remove irrelevant data step by step. At each pruning step, we observe the intermediate state of the table and apply a post-order node rollback mechanism to handle abnormal table states, ultimately producing a highly reliable sub-table for final answer reasoning. Finally, extensive experiments show that EnoTab achieves outstanding performance on TableQA tasks with complex questions and large-scale tables, confirming its effectiveness.
- Abstract(参考訳): テーブル質問応答(TableQA)は自然言語処理(NLP)の基本課題である。
大規模言語モデル(LLM)の強力な推論能力は、この分野に大きな進歩をもたらした。
しかし、現実のアプリケーションではますます複雑な問題や大きなテーブルが伴うため、かなりノイズの多いデータが導入され、推論性能が著しく低下する。
この課題に対処するために、関係フィルタリング(Relevance Filtering)と、本質的なコンテンツを保持しながらテーブルのサイズを小さくするテーブルプルーニング(Table Pruning)という2つのコア機能の改善に焦点を当てた。
これらの原理に基づき、複雑な質問や大規模テーブルのための2つの認知フレームワークであるEnoTabを提案する。
具体的には,まず,質問を最小のセマンティック単位に分解し,一貫性とユーザビリティの基準に基づく推論に答えない質問をフィルタリングする。
そこで我々は,無関係なデータを段階的に除去する明示的で透明なテーブルプルーニングパスを構築するEvidence Tree-Guided Table Denoisingを提案する。
各プルーニングステップにおいて、テーブルの中間状態を観察し、異常なテーブル状態を処理するためにポストオーダーノードロールバック機構を適用し、最終的に、最終回答推論のための信頼性の高いサブテーブルを生成する。
最後に、EnoTabは複雑な質問や大規模テーブルを伴うTableQAタスクにおいて優れたパフォーマンスを実現し、その有効性を確認した。
関連論文リスト
- ReasonTabQA: A Comprehensive Benchmark for Table Question Answering from Real World Industrial Scenarios [42.9161992743627]
本稿では、エネルギーや自動車といった30の産業領域にまたがる1,932のテーブルを含む大規模バイリンガルベンチマークであるReasonTabQAを紹介する。
また、テーブル認識による検証可能な報酬を利用して論理的推論経路を生成する強化学習手法であるTabCodeRLを導入する。
論文 参考訳(メタデータ) (2026-01-12T07:36:06Z) - TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data [10.798423317852288]
TabDSRは,(1)複雑な質問を分解するクエリデコンパイラ,(2)ノイズの多いテーブルを浄化・フィルタリングするテーブルサニタイザ,(3)プログラム・オブ・シークレット(PoT)ベースの推論器からなるフレームワークである。
テーブル上の複雑な数値推論のために特別に設計された新しいデータセットであるCalTab151を導入する。
TAT-QA, TableBench, TabDSRの精度は8.79%, 6.08%, 19.87%向上した。
論文 参考訳(メタデータ) (2025-11-04T03:13:02Z) - TableReasoner: Advancing Table Reasoning Framework with Large Language Models [8.435221919975744]
本研究では,大規模言語モデル (LLM) とプログラミングベースのテーブル推論フレームワークである TableReasoner を提案する。
構造的表現と意味的表現を組み合わせたスキーマを使用してテーブルをモデル化し、大規模テーブルの全体的理解と効率的な処理を可能にする。
本システムは,SemEval-2025タスク8の両サブタスクにおいて,第1位を達成している。
論文 参考訳(メタデータ) (2025-07-10T06:16:51Z) - Towards Question Answering over Large Semi-structured Tables [29.384514074911955]
TaDReは、テーブルの分解品質を保証するために、プリテーブルとポストテーブルの分解精細化の両方を組み込んだモデルである。
TaDReは大規模テーブルTableQAタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-19T04:45:05Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Augment before You Try: Knowledge-Enhanced Table Question Answering via
Table Expansion [57.53174887650989]
テーブル質問応答は、構造化されたデータを理解し、相互作用するモデルの能力を評価する一般的なタスクである。
既存の方法は表と外部の知識の両方をテキストに変換し、表の構造的な性質を無視する。
そこで本稿では,表に外部情報を統合するための簡易で効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-01-28T03:37:11Z) - Chain-of-Table: Evolving Tables in the Reasoning Chain for Table
Understanding [79.9461269253121]
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。
Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-09T07:46:26Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - Large Language Models are Versatile Decomposers: Decompose Evidence and
Questions for Table-based Reasoning [45.013230888670435]
大規模言語モデル(LLM)を効率的なテーブルベースの推論のためのデコンパイラとして活用する。
巨大な証拠(巨大な表)をサブエビデンス(小さな表)に分解し、無駄な情報の干渉を軽減する。
我々は,思考連鎖のジレンマを軽減するために,「パーシング・エグゼクティオン・フィリング」戦略を提案する。
論文 参考訳(メタデータ) (2023-01-31T17:51:45Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。