論文の概要: Automated Text-to-Table for Reasoning-Intensive Table QA: Pipeline Design and Benchmarking Insights
- arxiv url: http://arxiv.org/abs/2505.19563v1
- Date: Mon, 26 May 2025 06:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.211186
- Title: Automated Text-to-Table for Reasoning-Intensive Table QA: Pipeline Design and Benchmarking Insights
- Title(参考訳): Reasoning-Intensive Table QA: Pipeline Design and Benchmarking Insights
- Authors: Shi-Yu Tian, Zhi Zhou, Wei Dong, Ming Yang, Kun-Yang Yu, Zi-Jian Cheng, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: 本稿では,数式語問題をテーブルベースの推論タスクに変換する自動生成パイプラインAutoT2Tを提案する。
パイプラインは同じ推論問題に対して、堅牢性評価をサポートするノイズの多いバージョンを含む、テーブルの複数の変種を生成することができる。
AutoT2TとTabularGSMによる実験的分析により、複雑なテーブルQAタスクにおけるLCMの失敗の根底にある要因は、推論と検索と識別プロセスの密結合であることが明らかとなった。
- 参考スコア(独自算出の注目度): 45.5276155343796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning with tabular data holds increasing importance in modern applications, yet comprehensive evaluation methodologies for reasoning-intensive Table Question Answering (QA) tasks remain nascent. Existing research is constrained by two primary bottlenecks: 1) Reliance on costly manually annotated real-world data, which is difficult to cover complex reasoning scenarios; 2) The heterogeneity of table structures hinders systematic analysis of the intrinsic mechanisms behind the underperformance of LLMs, especially in reasoning-intensive tasks. To address these issues, we propose an automated generation pipeline AutoT2T that transforms mathematical word problems into table-based reasoning tasks, eliminating the need for manual annotation. The pipeline can generate multiple variants of a table for the same reasoning problem, including noisy versions to support robustness evaluation. Based on this, we construct a new benchmark TabularGSM, which systematically spans a range of table complexities and trap problems. Experimental analyses through AutoT2T and TabularGSM reveal that the tight coupling between reasoning and retrieval or identification processes is a key factor underlying the failure of LLMs in complex Table QA tasks. This highlights the necessity for models to develop synergistic reasoning capabilities in order to perform effectively in complex Table QA tasks.
- Abstract(参考訳): 表形式のデータによる推論は、現代のアプリケーションではますます重要になっているが、推論集約型テーブル質問回答(QA)タスクに対する包括的な評価手法は、まだ初期段階である。
既存の研究は2つの主要なボトルネックに制約されている。
1)複雑な推論シナリオをカバーし難い,手作業による手作業による実世界のデータへの信頼
2) 表構造の不均一性は, LLMの過小評価の背後にある内在的メカニズム, 特に推論集約的なタスクの系統的解析を妨げている。
これらの問題に対処するために,数式語問題をテーブルベースの推論タスクに変換する自動生成パイプラインAutoT2Tを提案する。
パイプラインは同じ推論問題に対して、堅牢性評価をサポートするノイズの多いバージョンを含む、テーブルの複数の変種を生成することができる。
そこで本研究では,テーブルの複雑度とトラップ問題に系統的に分散した新しいベンチマークTabularGSMを構築した。
AutoT2TとTabularGSMによる実験的分析により、複雑なテーブルQAタスクにおけるLCMの失敗の根底にある要因は、推論と検索と識別プロセスの密結合であることが明らかとなった。
このことは、複雑なテーブルQAタスクで効果的に実行するために、モデルが相乗的推論機能を開発する必要性を強調している。
関連論文リスト
- TQA-Bench: Evaluating LLMs for Multi-Table Question Answering with Scalable Context and Symbolic Extension [8.489816179329832]
TQA-Benchは,大規模言語モデル(LLM)の複雑なQAタスクをリレーショナルデータ上で処理する能力を評価するために設計された,新しいマルチテーブルQAベンチマークである。
我々のベンチマークでは、現実世界のパブリックデータセットから得られた多様なリレーショナルデータベースインスタンスを組み込んでいます。
我々は、70億から700億のパラメータにまたがる、オープンソースとクローズドソースの両方のLLMを体系的に評価する。
論文 参考訳(メタデータ) (2024-11-29T06:48:13Z) - Seek and Solve Reasoning for Table Question Answering [49.006950918895306]
本稿では,タスク単純化時の推論プロセスが,タスク自体の単純化よりも有用であることを示す。
本稿では,LLMにまず関連情報を求め,質問に答えるように指示するSeek-and-solving Pipelineを提案する。
本稿では, SS-CoT経路を用いた実演を用いて, 複雑なTQA課題の解決にLLMを誘導する単一ステップTQA解決プロンプトをこのパイプラインから蒸留する。
論文 参考訳(メタデータ) (2024-09-09T02:41:00Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。