論文の概要: GAC: Noise-Aware Adaptive Mixing for Hybrid SFT-RL Post-Training
- arxiv url: http://arxiv.org/abs/2605.26184v1
- Date: Mon, 25 May 2026 07:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.277887
- Title: GAC: Noise-Aware Adaptive Mixing for Hybrid SFT-RL Post-Training
- Title(参考訳): GAC:ハイブリッドSFT-RL後処理用ノイズ認識適応混合
- Authors: Yuelin Hu, Zhenbo Yu, Zhengxue Cheng, Wei Liu, Li Song,
- Abstract要約: 本稿では,2つの学習信号間の勾配差と不一致のオンライン推定から適応混合重みを導出する雑音認識型制御器GACを提案する。
数学、コード、科学、論理学のベンチマークの実験では、GACは強い固定とルールベースのベースラインよりも、ハイブリッドなポストトレーニングを一貫して改善している。
- 参考スコア(独自算出の注目度): 21.974153439592317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid post-training usually combines supervised fine-tuning and reinforcement learning, but fixed mixing schedules cannot adapt when the relative noise of the two signals changes over time. We propose GAC, a noise-aware controller that derives an adaptive mixing weight from online estimates of gradient variance and disagreement between the two training signals. The method adds smoothing, prior guidance, and bounded updates while reusing existing training tensors. Experiments on math, code, science, and logic benchmarks show that GAC consistently improves hybrid post-training over strong fixed and rule-based baselines, with larger gains at larger model scales and less than 1% training overhead.
- Abstract(参考訳): ハイブリッドポストトレーニングは通常、教師付き微調整と強化学習を組み合わせるが、固定混合スケジュールは、2つの信号の相対ノイズが時間とともに変化すると適応できない。
本稿では,2つの学習信号間の勾配差と不一致のオンライン推定から適応混合重みを導出する雑音認識型制御器GACを提案する。
このメソッドは、既存のトレーニングテンソルを再利用しながら、スムーズな、事前のガイダンス、バウンドされた更新を追加する。
数学、コード、科学、論理学のベンチマークの実験によると、GACは、強い固定とルールベースのベースラインよりも、常にハイブリッドなポストトレーニングを改善しており、より大きなモデルスケールで、1%以下のトレーニングオーバーヘッドで大きく向上している。
関連論文リスト
- NoiseRater: Meta-Learned Noise Valuation for Diffusion Model Training [81.58321000203712]
NoiseRaterは、拡散モデルトレーニングにおけるインスタンスレベルのノイズ評価のためのメタラーニングフレームワークである。
NoiseRaterは、重要度スコアをデータとタイムステップで条件付けられた個々のノイズ実現に割り当てる。
FFHQとImageNetの実験では、すべてのノイズサンプルが等しく寄与するわけではない。
論文 参考訳(メタデータ) (2026-05-02T19:43:16Z) - The Coupling Within: Flow Matching via Distilled Normalizing Flows [45.3372883861006]
フロートレーニングにおいて重要な要素は、ノイズ/データペアをサンプリングする結合尺度の選択である。
そこで本研究では,NFモデルの準決定論的結合を蒸留し,学生のフローモデルを学習するための正規化フローマッチングを提案する。
論文 参考訳(メタデータ) (2026-03-09T23:07:36Z) - GAC: Stabilizing Asynchronous RL Training for LLMs via Gradient Alignment Control [16.529035487811267]
政策段階の更新に非同期性を適用することで,定性的に異なるトレーニングダイナミクスを誘導し,厳しいトレーニング不安定を生じさせることを示す。
GRADIENT ALIGNMENT Controlは、静的な方向に沿って非同期RLの進行を制御するシンプルな動的認識安定化法である。
論文 参考訳(メタデータ) (2026-03-02T06:19:43Z) - Conda: Column-Normalized Adam for Training Large Language Models Faster [70.66067959375748]
Column-Normalized Adam (Conda)は、大規模言語モデル(LLM)に対する新しいアプローチである。
Condaはサブスペースに更新を投影し、投影された勾配に基づいてカラムワイズ第2モーメント正規化を適用する。
LLaMAとGPT-2シリーズの実験では、コンダはトレーニング前のAdamW、Muon、その他のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-29T02:58:19Z) - Learn2Mix: Training Neural Networks Using Adaptive Data Integration [14.314972805316202]
learn2mixは、バッチ内のクラス比率を適応的に調整する新しいトレーニング戦略で、エラー率の高いクラスに重点を置いている。
経験的評価では、Learner2mixでトレーニングされたニューラルネットワークは、既存のアプローチでトレーニングされたニューラルネットワークよりも早く収束している。
論文 参考訳(メタデータ) (2024-12-21T04:40:07Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-07-05T15:39:29Z) - Self-Adaptive Training: beyond Empirical Risk Minimization [15.59721834388181]
余分な計算コストを伴わずにモデル予測により問題ラベルを動的に補正する新しいトレーニングアルゴリズムを提案する。
自己適応型トレーニングは、様々なレベルのノイズに対する一般化を著しく改善し、自然と敵対両方のトレーニングにおいて過度に適合する問題を緩和する。
CIFARとImageNetデータセットの実験は、我々のアプローチの有効性を2つのアプリケーションで検証する。
論文 参考訳(メタデータ) (2020-02-24T15:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。