論文の概要: TabularGSM: Understanding the Limitations of LLMs in Tabular Math Reasoning
- arxiv url: http://arxiv.org/abs/2505.19563v2
- Date: Sat, 27 Sep 2025 08:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.983999
- Title: TabularGSM: Understanding the Limitations of LLMs in Tabular Math Reasoning
- Title(参考訳): TabularGSM: Tabular Math ReasoningにおけるLLMの限界を理解する
- Authors: Shi-Yu Tian, Zhi Zhou, Wei Dong, Kun-Yang Yu, Ming Yang, Zi-Jian Cheng, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: 本稿では,算術語問題をスケーラブルかつ検証可能な表型推論タスクに変換する,ニューロシンボリックなフレームワークであるAutoT2Tを提案する。
3つの段階的に複雑なサブセットと2つの相補的な評価設定を持つトラップサブセットからなるベンチマークであるTabularを開発した。
- 参考スコア(独自算出の注目度): 26.230588166759706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical reasoning has long been a key benchmark for evaluating large language models (LLMs). Although substantial progress has been made on math word problems, the need for reasoning over tabular data in real-world applications has been overlooked. For instance, applications such as business intelligence demand not only multi-step numerical reasoning with tables but also robustness to incomplete or inconsistent information. However, comprehensive evaluation in this area is severely limited, constrained by the reliance on manually collected tables that are difficult to scale and the lack of coverage for potential traps encountered in real-world scenarios. To address this problem, we propose AutoT2T, a neuro-symbolic framework that controllably transforms math word problems into scalable and verified tabular reasoning tasks, enabling the evaluation of both accuracy and robustness. Building on this pipeline, we develop TabularGSM, a benchmark comprising three progressively complex subsets and a trap subset, with two complementary evaluation settings. Our study reveals three key observations: (1) Tabular structure makes mathematical reasoning more challenging; (2) The difficulties stem from the joint effects of tabular retrieval and reasoning; (3) Reasoning robustness is another significant issue that needs to be addressed in existing LLMs. In-depth analyses are conducted for each observation to guide future research.
- Abstract(参考訳): 数学的推論は、長い間、大きな言語モデル(LLM)を評価する上で重要なベンチマークであった。
数学用語の問題に関してかなりの進歩があったが、実世界のアプリケーションにおける表形式のデータに対する推論の必要性は見過ごされている。
例えば、ビジネスインテリジェンスのようなアプリケーションは、テーブルによる多段階の数値推論だけでなく、不完全あるいは矛盾した情報に対する堅牢性も要求します。
しかし,この領域における包括的評価は,拡張が困難な手作業で収集したテーブルへの依存や,現実のシナリオで発生する潜在的なトラップのカバレッジの欠如により,極めて制限されている。
この問題に対処するために,算術語問題をスケーラブルかつ検証された表型推論タスクに制御的に変換し,精度とロバスト性の両方の評価を可能にする,ニューロシンボリックなフレームワークであるAutoT2Tを提案する。
このパイプライン上に構築されたTabularGSMは、3つの段階的に複雑なサブセットと2つの相補的な評価設定を持つトラップサブセットからなるベンチマークである。
本研究は,(1) タブラル構造が数学的推論をより困難にすること,(2) 表の検索と推論の併用による難しさ,(3) 頑健性の推論は,既存のLLMで対処すべき重要な問題である。
各観測結果について詳細な分析を行い,今後の研究を指導する。
関連論文リスト
- LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - TQA-Bench: Evaluating LLMs for Multi-Table Question Answering with Scalable Context and Symbolic Extension [8.489816179329832]
TQA-Benchは,大規模言語モデル(LLM)の複雑なQAタスクをリレーショナルデータ上で処理する能力を評価するために設計された,新しいマルチテーブルQAベンチマークである。
我々のベンチマークでは、現実世界のパブリックデータセットから得られた多様なリレーショナルデータベースインスタンスを組み込んでいます。
我々は、70億から700億のパラメータにまたがる、オープンソースとクローズドソースの両方のLLMを体系的に評価する。
論文 参考訳(メタデータ) (2024-11-29T06:48:13Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Seek and Solve Reasoning for Table Question Answering [49.006950918895306]
本稿では,タスク単純化時の推論プロセスが,タスク自体の単純化よりも有用であることを示す。
本稿では,LLMにまず関連情報を求め,質問に答えるように指示するSeek-and-solving Pipelineを提案する。
本稿では, SS-CoT経路を用いた実演を用いて, 複雑なTQA課題の解決にLLMを誘導する単一ステップTQA解決プロンプトをこのパイプラインから蒸留する。
論文 参考訳(メタデータ) (2024-09-09T02:41:00Z) - H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。
実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-29T21:24:19Z) - Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis [7.486549276995143]
大規模言語モデル(LLM)は、特定の訓練なしにテーブル理解タスクに取り組むことが示されている。
In-context Learning (ICL), model scale, instruction tune, and domain bias が Tabular QA (TQA) に与える影響を考察する。
摂動による注意分散の変化と性能低下との間には強い相関関係がみられた。
論文 参考訳(メタデータ) (2024-06-18T15:41:15Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。