論文の概要: TabR1: Taming GRPO for tabular reasoning LLMs
- arxiv url: http://arxiv.org/abs/2510.17385v1
- Date: Mon, 20 Oct 2025 10:22:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.4069
- Title: TabR1: Taming GRPO for tabular reasoning LLMs
- Title(参考訳): TabR1: 表式推論用GRPO
- Authors: Pengxiang Cai, Zihao Gao, Jintai Chen,
- Abstract要約: 本稿では,多段階推論を用いた表型予測のための最初の推論LLMであるTabR1を提案する。
その中核は、単純だが効率的な強化学習法である置換相対ポリシー最適化(PRPO)である。
PRPOはスパース報酬を濃密な学習信号に変換し、一般化を改善する。
- 参考スコア(独自算出の注目度): 12.303771262614484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular prediction has traditionally relied on gradient-boosted decision trees and specialized deep learning models, which excel within tasks but provide limited interpretability and weak transfer across tables. Reasoning large language models (LLMs) promise cross-task adaptability with trans- parent reasoning traces, yet their potential has not been fully realized for tabular data. This paper presents TabR1, the first reasoning LLM for tabular prediction with multi-step reasoning. At its core is Permutation Relative Policy Optimization (PRPO), a simple yet efficient reinforcement learning method that encodes column-permutation invariance as a structural prior. By construct- ing multiple label-preserving permutations per sample and estimating advantages both within and across permutations, PRPO transforms sparse rewards into dense learning signals and improves generalization. With limited supervision, PRPO activates the reasoning ability of LLMs for tabular prediction, enhancing few-shot and zero-shot performance as well as interpretability. Comprehensive experiments demonstrate that TabR1 achieves performance comparable to strong baselines under full-supervision fine-tuning. In the zero-shot setting, TabR1 approaches the performance of strong baselines under the 32-shot setting. Moreover, TabR1 (8B) substantially outperforms much larger LLMs across various tasks, achieving up to 53.17% improvement over DeepSeek-R1 (685B).
- Abstract(参考訳): タブラル予測は伝統的に、タスク内では優れているが、テーブル間の限定的な解釈可能性と弱い移動を提供する、勾配付き決定木や専門的なディープラーニングモデルに依存してきた。
大型言語モデル(LLM)の推論は、トランスペアレント推論トレースによるクロスタスク適応性を約束するが、それらのポテンシャルは表のデータに対して完全には実現されていない。
本稿では,多段階推論を用いた表型予測のための最初の推論LLMであるTabR1を提案する。
Permutation Relative Policy Optimization (PRPO) は、カラム置換不変性を構造的先行としてエンコードする単純かつ効率的な強化学習手法である。
サンプル毎に複数のラベル保存置換を合成し、置換中と置換中の両方の利点を推定することにより、PRPOはスパース報酬を密度の高い学習信号に変換し、一般化を改善する。
限定的な監督により、PRPOは表形式での予測のためのLLMの推論能力を活性化し、少数ショットとゼロショットのパフォーマンスを向上し、解釈可能性を高める。
総合的な実験により、TabR1はフルスーパービジョンの微調整の下で、強力なベースラインに匹敵するパフォーマンスを実現している。
ゼロショット設定では、TabR1は32ショット設定で強いベースラインのパフォーマンスにアプローチする。
さらに、TabR1 (8B) は様々なタスクにまたがるより大きなLCMよりも大幅に優れており、DeepSeek-R1 (685B) よりも最大53.17%改善されている。
関連論文リスト
- Can GRPO Boost Complex Multimodal Table Understanding? [41.72642230279542]
Table-R1は、マルチモーダルテーブル理解のための3段階強化学習フレームワークである。
これにより、ホールドインとホールドアウトの両方のデータセットで明らかにパフォーマンスを推論するモデルのテーブルが向上する可能性がある。
論文 参考訳(メタデータ) (2025-09-21T02:51:15Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models [52.94091440130039]
表推論(TR)は、半構造化データに対する構造化推論を必要とする。
小型言語モデル(SLM)は、大きなLM(LLM、例えばGPT-4o)と比較して限られた能力を持つ。
実行可能プログラムを生成することで、テキストベースTR(T-TR)の鍵となる制限を回避するプログラムベースTR(P-TR)を提案する。
4つのTRベンチマークの実験により、Table-r1は全てのSLMベースの手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-06-06T14:52:19Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Table-R1: Inference-Time Scaling for Table Reasoning [56.812846737424245]
推論時間スケーリングを実現するための2つのポストトレーニング戦略を開発し評価する。
蒸留では,DeepSeek-R1 が生成した推論トレースの大規模データセットを導入する。
RLVRではタスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを得る。
論文 参考訳(メタデータ) (2025-05-29T16:28:50Z) - Table-R1: Region-based Reinforcement Learning for Table Understanding [34.213738690633896]
本稿では,テーブル理解を高める新しい強化学習手法であるTable-R1を提案する。
提案手法では,Rerea-Enhanced Supervised Fine-Tuning (RE-SFT) を用いて,関連するテーブル領域を識別するモデルをガイドする。
実験の結果、Table-R1は複数のベースモデルで平均14.36ポイントの性能向上を達成した。
論文 参考訳(メタデータ) (2025-05-18T13:40:18Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。