論文の概要: Scaling Reasoning Tokens via RL and Parallel Thinking: Evidence From Competitive Programming
- arxiv url: http://arxiv.org/abs/2604.01302v1
- Date: Wed, 01 Apr 2026 18:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.758124
- Title: Scaling Reasoning Tokens via RL and Parallel Thinking: Evidence From Competitive Programming
- Title(参考訳): RLと並列思考による推論のスケールアップ - 競合プログラミングによる証拠
- Authors: Qianfan Zhang, Tianyu Guo, Xuandi Ren, Jiale Chen, Ming Ding, Ran Xin, Xia Xiao,
- Abstract要約: 競合プログラミングのための推論トークンの予算を2つの相補的なアプローチでスケールする方法を研究する。
マルチラウンド並列思考パイプラインを導入し、トークンの予算を生成、検証、改善のスレッドとラウンドに分散する。
このパイプラインでモデルをエンドツーエンドにトレーニングし、トレーニング目標とテスト時間構造を一致させます。
- 参考スコア(独自算出の注目度): 10.478834409140623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how to scale reasoning token budgets for competitive programming through two complementary approaches: training-time reinforcement learning (RL) and test-time parallel thinking. During RL training, we observe an approximately log-linear relationship between validation accuracy and the average number of generated reasoning tokens over successive checkpoints, and show two ways to shift this training trajectory: verification RL warmup raises the starting point, while randomized clipping produces a steeper trend in the observed regime. As scaling single-generation reasoning during RL quickly becomes expensive under full attention, we introduce a multi-round parallel thinking pipeline that distributes the token budget across threads and rounds of generation, verification, and refinement. We train the model end-to-end on this pipeline to match the training objective to the test-time structure. Starting from Seed-OSS-36B, the full system with 16 threads and 16 rounds per thread matches the underlying RL model's oracle pass@16 at pass@1 using 7.6 million tokens per problem on average, and surpasses GPT-5-high on 456 hard competitive programming problems from AetherCode.
- Abstract(参考訳): 本稿では,学習時間強化学習(RL)とテスト時間並列思考という2つの相補的なアプローチを用いて,競合プログラミングのための推論トークン予算をスケールする方法を検討する。
検証RLウォームアップは開始点を上昇させ,ランダム化クリッピングは観測された状態においてより急激な傾向をもたらす。
RL中における単一世代推論のスケーリングが急速に高価になるにつれて、トークンの予算をスレッドやラウンドに分散し、生成、検証、改善を行うマルチラウンド並列思考パイプラインが導入される。
このパイプラインでモデルをエンドツーエンドにトレーニングし、トレーニング目標とテスト時間構造を一致させます。
Seed-OSS-36Bから始まる16スレッドと1スレッドあたり16ラウンドのフルシステムは、基礎となるRLモデルのオラクルパス@16 at pass@1と、平均して760万のトークンを使用して一致し、AetherCodeの456のハードコンペティタプログラミング問題に対してGPT-5を上回ります。
関連論文リスト
- SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling [54.276306194000405]
SortedRLを提案する。SortedRLは、強化学習をスケールするためのオンライン長対応スケジューリング戦略である。
SortedRLは、出力長に基づいてロールアウトサンプルをリオーダーし、短いサンプルが早期更新のためにグループを形成することを優先順位付けする。
LLaMA-3.1-8BとQwen-2.5-32Bを論理パズルを含む様々なタスクで実験した結果、SortedRLはRLトレーニングバブル比を50%以上削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T16:48:31Z) - $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。
数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文 参考訳(メタデータ) (2025-11-17T19:02:12Z) - DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation [5.496363733566038]
我々は、RLVR(すなわち、RLプロンプト)を構築し、競争プログラミングコード生成に強力なパフォーマンスをもたらすトレーニング技術を示す。
本手法はQwen2.5-32B上で実装され,LeetCodeとCodeforcesの毎週のコンテストでデータ漏洩を回避する。
結果として得られたモデルは、同様のスケールのモデル間で最先端のパフォーマンスを実現し、DeepSeek v3.1 や Doubao-1.5-Thinking のような主要なシステムに匹敵する。
論文 参考訳(メタデータ) (2025-11-09T10:11:28Z) - Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - Parallel-R1: Towards Parallel Thinking via Reinforcement Learning [65.68667585027232]
並列思考は、大規模言語モデルの推論能力を高めるための新しいアプローチである。
並列思考行動を可能にする最初の強化学習フレームワークである textbfParallel-R1 を提案する。
本フレームワークでは,並列思考のトレーニングにおいて,コールドスタート問題に明示的に対処する漸進的なカリキュラムを採用している。
論文 参考訳(メタデータ) (2025-09-09T17:59:35Z) - History Rhymes: Accelerating LLM Reinforcement Learning with RhymeRL [14.506189610798929]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要な方法論として登場した。
RhymeRLは、RLトレーニングを2つの重要なイノベーションで加速するLLM RLシステムである。
まず、ロールアウト生成を強化するために、投機的復号推論エンジンであるHistoSpecを紹介する。
第二に、ロールアウトバブルに取り組むために、2層スケジューリング戦略であるHistoPipeを紹介します。
論文 参考訳(メタデータ) (2025-08-26T01:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。