論文の概要: Table-R1: Inference-Time Scaling for Table Reasoning
- arxiv url: http://arxiv.org/abs/2505.23621v1
- Date: Thu, 29 May 2025 16:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.987277
- Title: Table-R1: Inference-Time Scaling for Table Reasoning
- Title(参考訳): Table-R1: テーブル推論のための推論時間スケーリング
- Authors: Zheyuan Yang, Lyuhao Chen, Arman Cohan, Yilun Zhao,
- Abstract要約: 推論時間スケーリングを実現するための2つのポストトレーニング戦略を開発し評価する。
蒸留では,DeepSeek-R1 が生成した推論トレースの大規模データセットを導入する。
RLVRではタスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを得る。
- 参考スコア(独自算出の注目度): 25.481170375825812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present the first study to explore inference-time scaling on table reasoning tasks. We develop and evaluate two post-training strategies to enable inference-time scaling: distillation from frontier model reasoning traces and reinforcement learning with verifiable rewards (RLVR). For distillation, we introduce a large-scale dataset of reasoning traces generated by DeepSeek-R1, which we use to fine-tune LLMs into the Table-R1-SFT model. For RLVR, we propose task-specific verifiable reward functions and apply the GRPO algorithm to obtain the Table-R1-Zero model. We evaluate our Table-R1-series models across diverse table reasoning tasks, including short-form QA, fact verification, and free-form QA. Notably, the Table-R1-Zero model matches or exceeds the performance of GPT-4.1 and DeepSeek-R1, while using only a 7B-parameter LLM. It also demonstrates strong generalization to out-of-domain datasets. Extensive ablation and qualitative analyses reveal the benefits of instruction tuning, model architecture choices, and cross-task generalization, as well as emergence of essential table reasoning skills during RL training.
- Abstract(参考訳): 本研究では,テーブル推論タスクにおける推論時間のスケーリングについて検討する。
本研究では,推定時間スケーリングを実現するための2つのポストトレーニング戦略,すなわちフロンティアモデル推論トレースからの蒸留と,検証可能な報酬(RLVR)を用いた強化学習を開発し,評価する。
蒸留のために,DeepSeek-R1が生成した大規模推論トレースデータセットを導入し,LLMをテーブル-R1-SFTモデルに微調整する。
RLVRではタスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを得る。
我々は,テーブル-R1系列のモデルを,ショートフォームQA,ファクト検証,フリーフォームQAなど様々なテーブル推論タスクで評価する。
特筆すべきは、Table-R1-ZeroモデルがGPT-4.1とDeepSeek-R1のパフォーマンスに匹敵する。
また、ドメイン外のデータセットへの強力な一般化を示す。
拡張的アブレーションと定性的分析は、命令チューニング、モデルアーキテクチャの選択、およびクロスタスクの一般化の利点と、RLトレーニング中に必須のテーブル推論スキルが出現することを明らかにする。
関連論文リスト
- Table-R1: Region-based Reinforcement Learning for Table Understanding [34.213738690633896]
本稿では,テーブル理解を高める新しい強化学習手法であるTable-R1を提案する。
提案手法では,Rerea-Enhanced Supervised Fine-Tuning (RE-SFT) を用いて,関連するテーブル領域を識別するモデルをガイドする。
実験の結果、Table-R1は複数のベースモデルで平均14.36ポイントの性能向上を達成した。
論文 参考訳(メタデータ) (2025-05-18T13:40:18Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.45348222168512]
マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。
我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。
Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-09T20:06:45Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Rank1: Test-Time Compute for Reranking in Information Retrieval [45.356614696154075]
Rank1はテスト時間計算を活用するためにトレーニングされた最初のリグレードモデルである。
我々は、MS MARCOのクエリやパスからのR1推論トレースの600,000以上のサンプルのデータセットを収集し、オープンソース化する。
論文 参考訳(メタデータ) (2025-02-25T18:14:06Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - LORE++: Logical Location Regression Network for Table Structure
Recognition with Pre-training [45.80561537971478]
表構造認識(TSR)は、画像中のテーブルを機械で理解可能な形式に抽出することを目的としている。
我々は、論理的位置回帰問題としてTSRをモデル化し、LOREと呼ばれる新しいTSRフレームワークを提案する。
提案するLOREは概念的にシンプルで、訓練が容易で、TSRの他のパラダイムよりも正確です。
論文 参考訳(メタデータ) (2024-01-03T03:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。