論文の概要: CoScale-RL: Efficient Post-Training by Co-Scaling Data and Computation
- arxiv url: http://arxiv.org/abs/2601.14695v1
- Date: Wed, 21 Jan 2026 06:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.256923
- Title: CoScale-RL: Efficient Post-Training by Co-Scaling Data and Computation
- Title(参考訳): CoScale-RL:Co-Scalingデータと計算による効率的なポストトレーニング
- Authors: Yutong Chen, Jiandong Gao, Ji Wu,
- Abstract要約: 訓練大型推論モデル(LRM)は通常不安定で予測不可能である。
より優れたデータと計算効率を持つ新しいスケーリング戦略であるCoScale-RLを提案する。
- 参考スコア(独自算出の注目度): 8.290384911182615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training Large Reasoning Model (LRM) is usually unstable and unpredictable, especially on hard problems or weak foundation models. We found that the current post-training scaling strategy can still improve on these cases. We propose CoScale-RL, a novel scaling strategy with better data and computational efficiency. We first scale up solutions to make problems solvable. The core idea is to collect multiple solutions for each problem, rather than simply enlarging the dataset. Then, we scale up rollout computation to stabilize Reinforcement Learning. We further leverage a model merge technique called Re-distillation to sustain or even improve computational efficiency when scaling up. Our method significantly improves data and computational efficiency, with an average 3.76$\times$ accuracy improvement on four benchmarks. CoScale-RL is able to improve an LRM's ability boundary without an extensive SFT dataset. Our method provides a new scaling direction to further improve LRM's reasoning ability.
- Abstract(参考訳): 大規模推論モデル(LRM)の訓練は通常不安定で予測できない。
現在のトレーニング後のスケーリング戦略は、これらのケースでも改善可能であることが分かりました。
より優れたデータと計算効率を持つ新しいスケーリング戦略であるCoScale-RLを提案する。
最初にソリューションをスケールアップして、問題の解決を可能にします。
中心となる考え方は、データセットを拡大するのではなく、各問題に対する複数のソリューションを集めることだ。
そして、強化学習を安定させるためにロールアウト計算をスケールアップする。
さらに、再蒸留と呼ばれるモデルマージ技術を活用して、スケールアップ時の計算効率を維持または改善する。
提案手法は,4つのベンチマークで平均3.76$\times$精度の改善を行い,データと計算効率を大幅に改善する。
CoScale-RLは、広範なSFTデータセットなしでLRMの能力境界を改善することができる。
提案手法は, LRMの推論能力を向上させるために, 新たなスケーリング方向を提供する。
関連論文リスト
- Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。
解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。
この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文 参考訳(メタデータ) (2025-08-20T17:54:21Z) - Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [69.67914133280296]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。
LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。
本手法は,従来のGRPOアルゴリズムと同等の性能を示しながら,RLの微調整時間を23%から62%削減する。
論文 参考訳(メタデータ) (2025-06-05T17:55:43Z) - Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo [22.7130140114906]
固定計算予算下でのLLMのトレーニングにおいて,DiLoCoのスケーリング法挙動について検討した。
DiLoCoはモデルサイズで予測可能かつ堅牢にスケールする。
十分に調整された場合、DiLoCoはモデルサイズでデータ並列トレーニングよりもスケールし、小さなモデルサイズでもデータ並列トレーニングよりパフォーマンスがよい。
論文 参考訳(メタデータ) (2025-03-12T20:04:38Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。