論文の概要: TableGPT-R1: Advancing Tabular Reasoning Through Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.20312v2
- Date: Thu, 25 Dec 2025 12:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.814369
- Title: TableGPT-R1: Advancing Tabular Reasoning Through Reinforcement Learning
- Title(参考訳): TableGPT-R1:強化学習による語彙推論の促進
- Authors: Saisai Yang, Qingyi Huang, Jing Yuan, Liangyu Zha, Kai Tang, Yuhang Yang, Ning Wang, Yucheng Wei, Liyao Li, Wentao Ye, Hao Chen, Tao Zhang, Junlin Zhou, Haobo Wang, Gang Chen, Junbo Zhao,
- Abstract要約: TableGPT-R1は、システマティック強化学習フレームワーク上に構築された特殊なモデルである。
本手法は, 教師付きアライメントとRLロールアウトの両方に対して, 難成層化エージェント軌道を合成する。
信頼性ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 28.052232941379884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data serves as the backbone of modern data analysis and scientific research. While Large Language Models (LLMs) fine-tuned via Supervised Fine-Tuning (SFT) have significantly improved natural language interaction with such structured data, they often fall short in handling the complex, multi-step reasoning and robust code execution required for real-world table tasks. Reinforcement Learning (RL) offers a promising avenue to enhance these capabilities, yet its application in the tabular domain faces three critical hurdles: the scarcity of high-quality agentic trajectories with closed-loop code execution and environment feedback on diverse table structures, the extreme heterogeneity of feedback signals ranging from rigid SQL execution to open-ended data interpretation, and the risk of catastrophic forgetting of general knowledge during vertical specialization. To overcome these challenges and unlock advanced reasoning on complex tables, we introduce \textbf{TableGPT-R1}, a specialized tabular model built on a systematic RL framework. Our approach integrates a comprehensive data engineering pipeline that synthesizes difficulty-stratified agentic trajectories for both supervised alignment and RL rollouts, a task-adaptive reward system that combines rule-based verification with a criteria-injected reward model and incorporates process-level step reward shaping with behavioral regularization, and a multi-stage training framework that progressively stabilizes reasoning before specializing in table-specific tasks. Extensive evaluations demonstrate that TableGPT-R1 achieves state-of-the-art performance on authoritative benchmarks, significantly outperforming baseline models while retaining robust general capabilities. Our model is available at https://huggingface.co/tablegpt/TableGPT-R1.
- Abstract(参考訳): タブラルデータは、現代のデータ分析と科学研究のバックボーンとして機能する。
Supervised Fine-Tuning (SFT)を介して微調整されたLarge Language Models (LLMs)は、そのような構造化データとの自然言語の相互作用を著しく改善しているが、現実のテーブルタスクに必要な複雑で多段階の推論と堅牢なコード実行を扱うには、しばしば不足している。
強化学習(Reinforcement Learning, RL)は、これらの機能を強化するための有望な道を提供するが、表領域での応用は、3つの重要なハードルに直面する: クローズドループコード実行による高品質なエージェント軌道の不足と多様なテーブル構造に対する環境フィードバック、厳密なSQL実行からオープンなデータ解釈までのフィードバック信号の極端に均一性、垂直特殊化中に一般的な知識を破滅的に忘れてしまうリスク。
これらの課題を克服し、複雑なテーブル上での高度な推論を解き放つために、系統的なRLフレームワーク上に構築された特殊な表形式である \textbf{TableGPT-R1} を導入する。
提案手法は,教師付きアライメントとRLロールアウトの両面において,困難なエージェントトラジェクトリを合成する包括的データエンジニアリングパイプラインと,ルールベースの検証と基準付き報酬モデルを組み合わせたタスク適応型報酬システムと,行動正規化によるプロセスレベルのステップ報酬生成と,テーブル固有のタスクを専門化する前に推論を段階的に安定化する多段階トレーニングフレームワークを統合する。
大規模評価では、TableGPT-R1は信頼性ベンチマークにおける最先端のパフォーマンスを達成し、堅牢な汎用能力を保ちながらベースラインモデルを大幅に上回っている。
私たちのモデルはhttps://huggingface.co/tablegpt/TableGPT-R1.comで利用可能です。
関連論文リスト
- Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models [53.03670032402846]
視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。
このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。
本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
論文 参考訳(メタデータ) (2025-09-22T11:13:48Z) - Can GRPO Boost Complex Multimodal Table Understanding? [41.72642230279542]
Table-R1は、マルチモーダルテーブル理解のための3段階強化学習フレームワークである。
これにより、ホールドインとホールドアウトの両方のデータセットで明らかにパフォーマンスを推論するモデルのテーブルが向上する可能性がある。
論文 参考訳(メタデータ) (2025-09-21T02:51:15Z) - TableMind: An Autonomous Programmatic Agent for Tool-Augmented Table Reasoning [10.267950603662776]
TableMindは、データ分析と正確な数値推論のために、セキュアなサンドボックス環境で、マルチターンツールの実行、書き込み、実行を自律的に実行する、ツール統合テーブル推論エージェントである。
これらの機能を実現するために、我々は強力な事前学習言語モデルの上に構築された2段階の微調整パラダイムを採用する。
論文 参考訳(メタデータ) (2025-09-08T02:00:31Z) - A Pre-training Framework for Relational Data with Information-theoretic Principles [57.93973948947743]
本稿では,リレーショナルグラフ上の集合に基づくアグリゲーションを通じて,監視信号を構成する新しい事前学習フレームワークであるTask Vector Estimation (TVE)を紹介する。
TVEは従来のトレーニング前のベースラインを一貫して上回っている。
本研究は,関係データベース上での予測モデルの設計原則として,タスクの不均一性と時間構造を符号化する事前学習目的を提唱する。
論文 参考訳(メタデータ) (2025-07-14T00:17:21Z) - Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models [52.94091440130039]
表推論(TR)は、半構造化データに対する構造化推論を必要とする。
小型言語モデル(SLM)は、大きなLM(LLM、例えばGPT-4o)と比較して限られた能力を持つ。
実行可能プログラムを生成することで、テキストベースTR(T-TR)の鍵となる制限を回避するプログラムベースTR(P-TR)を提案する。
4つのTRベンチマークの実験により、Table-r1は全てのSLMベースの手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-06-06T14:52:19Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Table-R1: Inference-Time Scaling for Table Reasoning [56.812846737424245]
推論時間スケーリングを実現するための2つのポストトレーニング戦略を開発し評価する。
蒸留では,DeepSeek-R1 が生成した推論トレースの大規模データセットを導入する。
RLVRではタスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを得る。
論文 参考訳(メタデータ) (2025-05-29T16:28:50Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。