論文の概要: ReasonTabQA: A Comprehensive Benchmark for Table Question Answering from Real World Industrial Scenarios
- arxiv url: http://arxiv.org/abs/2601.07280v1
- Date: Mon, 12 Jan 2026 07:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.266028
- Title: ReasonTabQA: A Comprehensive Benchmark for Table Question Answering from Real World Industrial Scenarios
- Title(参考訳): ReasonTabQA: 現実の産業シナリオからの質問に対する総合的ベンチマーク
- Authors: Changzai Pan, Jie Zhang, Kaiwen Wei, Chenshuo Pan, Yu Zhao, Jingwang Huang, Jian Yang, Zhenhe Wu, Haoyang Zeng, Xiaoyan Gu, Weichao Sun, Yanbo Zhai, Yujie Mao, Zhuoru Jiang, Jiang Zhong, Shuangyong Song, Yongxiang Li, Zhongjiang He,
- Abstract要約: 本稿では、エネルギーや自動車といった30の産業領域にまたがる1,932のテーブルを含む大規模バイリンガルベンチマークであるReasonTabQAを紹介する。
また、テーブル認識による検証可能な報酬を利用して論理的推論経路を生成する強化学習手法であるTabCodeRLを導入する。
- 参考スコア(独自算出の注目度): 42.9161992743627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have significantly catalyzed table-based question answering (TableQA). However, existing TableQA benchmarks often overlook the intricacies of industrial scenarios, which are characterized by multi-table structures, nested headers, and massive scales. These environments demand robust table reasoning through deep structured inference, presenting a significant challenge that remains inadequately addressed by current methodologies. To bridge this gap, we present ReasonTabQA, a large-scale bilingual benchmark encompassing 1,932 tables across 30 industry domains such as energy and automotive. ReasonTabQA provides high-quality annotations for both final answers and explicit reasoning chains, supporting both thinking and no-thinking paradigms. Furthermore, we introduce TabCodeRL, a reinforcement learning method that leverages table-aware verifiable rewards to guide the generation of logical reasoning paths. Extensive experiments on ReasonTabQA and 4 TableQA datasets demonstrate that while TabCodeRL yields substantial performance gains on open-source LLMs, the persistent performance gap on ReasonTabQA underscores the inherent complexity of real-world industrial TableQA.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩はテーブルベースの質問応答 (TableQA) を著しく触媒化した。
しかし、既存のTableQAベンチマークは、しばしば、マルチテーブル構造、ネストヘッダ、大規模で特徴付けられる産業シナリオの複雑さを見落としている。
これらの環境は、深く構造化された推論を通して堅牢なテーブル推論を必要としており、現在の方法論では不十分な課題である。
このギャップを埋めるために、エネルギーや自動車といった30の産業領域にわたる1,932のテーブルを含む大規模なバイリンガルベンチマークであるReasonTabQAを提案する。
ReasonTabQAは最終回答と明確な推論チェーンの両方に対して高品質なアノテーションを提供し、思考と無思考のパラダイムの両方をサポートします。
さらに、テーブル認識による検証可能な報酬を利用して論理的推論経路を生成する強化学習手法であるTabCodeRLを導入する。
ReasonTabQAと4つのTableQAデータセットに関する大規模な実験では、TabCodeRLはオープンソースのLLMでかなりのパフォーマンス向上をもたらすが、ReasonTabQAの持続的なパフォーマンスギャップは、現実の産業用TableQAの本質的な複雑さを浮き彫りにしている。
関連論文リスト
- When TableQA Meets Noise: A Dual Denoising Framework for Complex Questions and Large-scale Tables [20.33076921920799]
EnoTabは、複雑な質問と大規模テーブルのための2つのデノベーションフレームワークである。
まず,質問を最小のセマンティック単位に分解することで,エビデンスに基づく質問記述を行う。
次に,明示的で透明なテーブルプルーニングパスを構成するEvidence Tree-Guided Table Denoisingを提案する。
論文 参考訳(メタデータ) (2025-09-22T12:25:57Z) - T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables [65.12524437711737]
本稿では,テーブル・ツー・レポーティングタスクを提案し,T2R-benchというバイリンガルベンチマークを構築した。
ベンチマークは457の産業用テーブルで構成されており、すべて現実世界のシナリオから導かれ、19の産業ドメインを含んでいる。
25台のLLMでの実験では、Deepseek-R1のような最先端のモデルでさえ62.71のスコアでしかパフォーマンスが得られないことがわかった。
論文 参考訳(メタデータ) (2025-08-27T11:55:40Z) - TabularGSM: Understanding the Limitations of LLMs in Tabular Math Reasoning [26.230588166759706]
本稿では,算術語問題をスケーラブルかつ検証可能な表型推論タスクに変換する,ニューロシンボリックなフレームワークであるAutoT2Tを提案する。
3つの段階的に複雑なサブセットと2つの相補的な評価設定を持つトラップサブセットからなるベンチマークであるTabularを開発した。
論文 参考訳(メタデータ) (2025-05-26T06:24:31Z) - RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking [63.253294691180635]
現実世界のシナリオでは、純粋なテキスト以外では、かなりの量の知識がテーブルに格納される。
まず、階層型メモリインデックス、多段階検索、グラフ認識プロンプトからなるテーブルコーパス対応RAGフレームワークT-RAGを提案する。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - Towards Question Answering over Large Semi-structured Tables [29.384514074911955]
TaDReは、テーブルの分解品質を保証するために、プリテーブルとポストテーブルの分解精細化の両方を組み込んだモデルである。
TaDReは大規模テーブルTableQAタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-19T04:45:05Z) - TableBench: A Comprehensive and Complex Benchmark for Table Question Answering [33.64465594140019]
本稿では,産業シナリオにおける大規模言語モデル(LLM)の適用について検討する。
本稿では,テーブル質問応答機能(TableQA)の4大カテゴリに18のフィールドを含む,包括的で複雑なベンチマークTableBenchを提案する。
TableBenchで実施された大規模な実験は、オープンソースのLLMとプロプライエタリなLLMの両方に、現実世界の要求を満たすための大きな改善の余地があることを示唆している。
論文 参考訳(メタデータ) (2024-08-17T11:40:10Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。