論文の概要: TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data
- arxiv url: http://arxiv.org/abs/2511.02219v2
- Date: Wed, 05 Nov 2025 03:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 13:56:26.184176
- Title: TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data
- Title(参考訳): TabDSR: タブラルデータにおける複素数値推論のための分解, 衛生, 推論
- Authors: Changjiang Jiang, Fengchang Yu, Haihua Chen, Wei Lu, Jin Zeng,
- Abstract要約: TabDSRは,(1)複雑な質問を分解するクエリデコンパイラ,(2)ノイズの多いテーブルを浄化・フィルタリングするテーブルサニタイザ,(3)プログラム・オブ・シークレット(PoT)ベースの推論器からなるフレームワークである。
テーブル上の複雑な数値推論のために特別に設計された新しいデータセットであるCalTab151を導入する。
TAT-QA, TableBench, TabDSRの精度は8.79%, 6.08%, 19.87%向上した。
- 参考スコア(独自算出の注目度): 10.798423317852288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex reasoning over tabular data is crucial in real-world data analysis, yet large language models (LLMs) often underperform due to complex queries, noisy data, and limited numerical capabilities. To address these issues, we propose TabDSR, a framework consisting of: (1) a query decomposer that breaks down complex questions, (2) a table sanitizer that cleans and filters noisy tables, and (3) a program-of-thoughts (PoT)-based reasoner that generates executable code to derive the final answer from the sanitized table. To ensure unbiased evaluation and mitigate data leakage, we introduce a new dataset, CalTab151, specifically designed for complex numerical reasoning over tables. Experimental results demonstrate that TabDSR consistently outperforms existing methods, achieving state-of-the-art (SOTA) performance with 8.79%, 6.08%, and 19.87% accuracy improvement on TAT-QA, TableBench, and TabDSR, respectively. Moreover, our framework integrates seamlessly with mainstream LLMs, providing a robust solution for complex tabular numerical reasoning. These findings highlight the effectiveness of our framework in enhancing LLM performance for complex tabular numerical reasoning. Data and code are available upon request.
- Abstract(参考訳): 表型データに対する複雑な推論は、実世界のデータ分析において重要であるが、複雑なクエリ、ノイズの多いデータ、限られた数値能力により、大きな言語モデル(LLM)は性能が劣ることが多い。
これらの問題に対処するため,(1)複雑な質問を分解するクエリデコンポスタ,(2)ノイズの多いテーブルを浄化・フィルタリングするテーブルサニタイザ,(3)プログラム・オブ・シークレット(PoT)ベースの推論器を用いて,最終的な応答をサニタイズしたテーブルから導出する,というフレームワークであるTabDSRを提案する。
偏りのない評価とデータ漏洩を軽減するため,テーブル上の複雑な数値推論のために設計された新しいデータセットであるCalTab151を導入する。
TAT-QA, TableBench, TabDSRの精度は8.79%, 6.08%, 19.87%向上した。
さらに,本フレームワークはLLMとシームレスに統合し,複雑な表数推論のための堅牢なソリューションを提供する。
これらの結果から,複雑な表数推論におけるLLM性能向上のためのフレームワークの有効性が示唆された。
データとコードは要求に応じて利用可能だ。
関連論文リスト
- LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Large Language Models are Versatile Decomposers: Decompose Evidence and
Questions for Table-based Reasoning [45.013230888670435]
大規模言語モデル(LLM)を効率的なテーブルベースの推論のためのデコンパイラとして活用する。
巨大な証拠(巨大な表)をサブエビデンス(小さな表)に分解し、無駄な情報の干渉を軽減する。
我々は,思考連鎖のジレンマを軽減するために,「パーシング・エグゼクティオン・フィリング」戦略を提案する。
論文 参考訳(メタデータ) (2023-01-31T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。