論文の概要: Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models
- arxiv url: http://arxiv.org/abs/2603.07777v1
- Date: Sun, 08 Mar 2026 19:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.210016
- Title: Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models
- Title(参考訳): ボットネックを打破する: 符号化モデルのための効果的で安定した強化学習
- Authors: Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei,
- Abstract要約: 現代のコード生成モデルは、より長い出力を示し、能力の成長を加速し、トレーニングのダイナミクスを変更します。
グループ相対政策最適化を改良したMicroCoder-GRPOを提案する。
MicroCoder-GRPOは、LiveCodeBench v6の強力なベースラインよりも17.6%の相対的な改善を実現している。
私たちは、300のトレーニングステップで、LiveCodeBench v6の主流データセットよりも3倍大きなパフォーマンス向上を達成する、より困難なトレーニングコーパスであるMicroCoder-Datasetをリリースした。
- 参考スコア(独自算出の注目度): 104.26904744478884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern code generation models exhibit longer outputs, accelerated capability growth, and changed training dynamics, rendering traditional training methodologies, algorithms, and datasets ineffective for improving their performance. To address these training bottlenecks, we propose MicroCoder-GRPO, an improved Group Relative Policy Optimization approach with three innovations: conditional truncation masking to improve long output potential while maintaining training stability, diversity-determined temperature selection to maintain and encourage output diversity, and removal of KL loss with high clipping ratios to facilitate solution diversity. MicroCoder-GRPO achieves up to 17.6% relative improvement over strong baselines on LiveCodeBench v6, with more pronounced gains under extended context evaluation. Additionally, we release MicroCoder-Dataset, a more challenging training corpus that achieves 3x larger performance gains than mainstream datasets on LiveCodeBench v6 within 300 training steps, and MicroCoder-Evaluator, a robust framework with approximately 25% improved evaluation accuracy and around 40% faster execution. Through comprehensive analysis across more than thirty controlled experiments, we reveal 34 training insights across seven main aspects, demonstrating that properly trained models can achieve competitive performance with larger counterparts.
- Abstract(参考訳): 現代のコード生成モデルは、より長いアウトプットを示し、能力の成長を加速し、トレーニングのダイナミクスを変更し、従来のトレーニング方法論、アルゴリズム、データセットを非効率にレンダリングする。
これらのトレーニングボトルネックに対処するために,MicroCoder-GRPOを提案する。これは,トレーニング安定性を維持しながら長期出力電位を向上するための条件付きトランケーションマスキング,出力多様性の維持と促進を目的とした多様性決定温度選択,高クリッピング比によるKL損失の除去という,3つのイノベーションによるグループ相対政策最適化手法である。
MicroCoder-GRPOは、LiveCodeBench v6の強いベースラインよりも17.6%の相対的な改善を実現している。
さらに、300のトレーニングステップでLiveCodeBench v6の主流データセットよりも3倍大きなパフォーマンス向上を達成する、より困難なトレーニングコーパスであるMicroCoder-Datasetと、約25%改善された評価精度と約40%高速な実行が可能な堅牢なフレームワークであるMicroCoder-Evaluatorをリリースしています。
30以上の制御された実験を総合的に分析することにより、7つの主要な側面にわたる34のトレーニングインサイトを明らかにし、適切なトレーニングされたモデルがより大きなモデルと競合する性能を達成できることを実証する。
関連論文リスト
- Evolving LLMs' Self-Refinement Capability via Synergistic Training-Inference Optimization [53.93621974137829]
自己精製(Self-Refinement)とは、モデルが自身のレスポンスを改訂し、改善された出力を生成する能力を指す。
EVOLVEは、反復的なトレーニングを通じて自己精製の進化を導き、追跡するためのフレームワークである。
固有モデル能力のより広範な自己改善を実現するために自己改善を活用する可能性を実証する。
論文 参考訳(メタデータ) (2025-02-08T15:21:55Z) - Faster and Better 3D Splatting via Group Training [4.7913404251054335]
グループトレーニングは、ガウスのプリミティブを管理可能なグループに整理し、トレーニング効率を最適化し、レンダリング品質を改善する戦略である。
このアプローチは、バニラ3DGSやMip-Splattingなど、既存の3DGSフレームワークとの共通互換性を示している。
実験の結果,グループトレーニング戦略が最大30%高速な収束と,さまざまなシナリオでのレンダリング品質の向上を実現していることが明らかになりました。
論文 参考訳(メタデータ) (2024-12-10T15:47:17Z) - GDeR: Safeguarding Efficiency, Balancing, and Robustness via Prototypical Graph Pruning [44.401418612374286]
トレーニング可能なプロトタイプを用いて,プロセス中のトレーニングを更新するための新しいソフトプルーニング手法であるGDeRを導入する。
GDeRは、トレーニングサンプルの30%削減で、完全なデータセットのパフォーマンスを達成または上回る。
また、不均衡なトレーニングやノイズの多いトレーニングシナリオにおいて、最先端のプルーニング手法よりも優れています。
論文 参考訳(メタデータ) (2024-10-17T16:56:01Z) - CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs [30.441431693349866]
既存の方法は、微調整のための膨大な量の合成データを生成し、訓練の効率を損なう。
CodeACTはCDAS(Complexity and Diversity Aware Smpling)メソッドを導入し、高品質なトレーニングデータを選択する。
CodeACTはHumanEvalのパフォーマンスが8.6%向上し、トレーニング時間を78%削減し、ピーク時のGPUメモリ使用量を27%削減した。
論文 参考訳(メタデータ) (2024-08-05T02:38:48Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。