論文の概要: Balanced Actor Initialization: Stable RLHF Training of Distillation-Based Reasoning Models
- arxiv url: http://arxiv.org/abs/2509.00309v1
- Date: Sat, 30 Aug 2025 01:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.170249
- Title: Balanced Actor Initialization: Stable RLHF Training of Distillation-Based Reasoning Models
- Title(参考訳): 平衡アクター初期化:蒸留に基づく推論モデルの安定RLHFトレーニング
- Authors: Chen Zheng, Yiyuan Ma, Yuan Yang, Deyi Liu, Jing Liu, Zuquan Song, Yuxin Song, Cheng Ren, Hang Zhu, Xin Liu, Yiyuan Ma, Siyuan Qiao, Xun Zhou, Liang Xiang, Yonghui Wu,
- Abstract要約: 大規模言語モデルにおけるアライメントと推論能力の開発は目覚ましい進歩を遂げた。
RLHFを蒸留訓練モデルに適用する第3のパラダイムは、重大な課題を示す。
本稿では,2段階重み付きモデルマージ手法であるBa balanced Actor Initialization (BAI)を提案する。
- 参考スコア(独自算出の注目度): 27.0496567592082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of alignment and reasoning capabilities in large language models has seen remarkable progress through two paradigms: instruction tuning and reinforcement learning from human feedback (RLHF) alignment paradigm, and distillation-based reasoning fine-tuning paradigm. While both approaches prove effective independently, the third paradigm of applying RLHF to distillation-trained models presents significant challenges. Our investigation reveals two critical phenomena that emerge in this paradigm: Sequence Length Collapse, where language generation dramatically reduces during early RLHF training, and the Reward Hockey Stick Curve, featuring severe reward score drops followed by gradual recovery. These instabilities fundamentally compromise the model's alignment and reasoning capabilities. To address these challenges, we propose Balanced Actor Initialization (BAI), a two-stage weighted model merging approach. BAI first merges instruction-following and distillation-based reasoning fine-tuned models, then further combines this intermediate model with the pretrained model to preserve foundational knowledge. Through comprehensive experiments across diverse benchmarks and detailed analysis of training experiments, we demonstrate that BAI resolves Sequence Length Collapse, mitigates the Reward Hockey Stick Curve, and enables continuous sequence length improvement during training. Additionally, our analysis reveals that balanced merging ratios achieve optimal trade-offs between training stability and reasoning capability preservation. Our work provides the effective solution for stable training in this third paradigm, enabling more capable reasoning models that combine distillation efficiency with RLHF alignment.
- Abstract(参考訳): 大規模言語モデルにおけるアライメントと推論能力の発達は、ヒューマンフィードバックアライメントパラダイム(RLHF)からの指導チューニングと強化学習、蒸留に基づく推論微調整パラダイムの2つのパラダイムを通じて顕著に進展している。
どちらの手法も独立に有効であることが証明されているが、RLHFを蒸留訓練モデルに適用する第3のパラダイムは重要な課題である。
このパラダイムでは,早期のRLHFトレーニングにおいて言語生成が劇的に減少するシーケンス長崩壊(Sequence Length Collapse)と,厳格な報酬の減少と段階的な回復を特徴とするReward Hockey Stick Curve(Reward Hockey Stick Curve)という2つの重要な現象が報告されている。
これらの不安定さは、モデルのアライメントと推論能力を根本的に損なう。
これらの課題に対処するため、我々は2段階重み付けモデルマージ手法であるBa balanced Actor Initialization (BAI)を提案する。
BAIはまず、命令追従と蒸留に基づく微調整モデルとをマージし、さらにこの中間モデルと事前訓練されたモデルを組み合わせて基礎知識を保存する。
多様なベンチマークにわたる総合的な実験と、トレーニング実験の詳細な分析を通じて、BAIがシーケンス長の崩壊を解消し、リワードホッケースティック曲線を緩和し、トレーニング中に連続的なシーケンス長の改善を可能にすることを実証する。
さらに,本分析の結果から,バランスの取れたマージ比がトレーニング安定性と推論能力の最適トレードオフを実現することが明らかとなった。
本研究は, 蒸留効率とRLHFアライメントを併用したより有能な推論モデルを実現するため, この第3パラダイムの安定トレーニングに有効なソリューションを提供する。
関連論文リスト
- Stabilizing Consistency Training: A Flow Map Analysis and Self-Distillation [28.716825452690173]
本稿では,フローマップの観点から解析することで,一貫性モデルの理論的検討を行う。
これらの知見に基づいて, ある形態の準最適収束に対する実践的な対策として, 自己蒸留を再考する。
論文 参考訳(メタデータ) (2026-01-30T07:51:55Z) - On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models [73.10315509190623]
最近の強化学習技術は、言語モデルにおいて顕著な推論改善をもたらした。
ポストトレーニングが、事前トレーニング中に取得したものを超えて、モデルの推論能力を真に拡張するかどうかは不明だ。
プレトレーニング,ミッドトレーニング,およびRLベースのポストトレーニングの因果的貢献を分離する,完全に制御された実験フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-08T18:12:10Z) - Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。
その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-11-12T11:34:19Z) - Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing [70.35701681177655]
自己改善は、大きな視覚言語モデルの推論能力を向上するための主流パラダイムとして現れてきた。
本研究では,探索学習による自己改善プロセスにおいて,頭部再バランスを実現するための4つの効率的な戦略を提案する。
我々の手法は視覚的推論能力を常に改善し、バニラ自己改善を平均3.86ポイント上回る。
論文 参考訳(メタデータ) (2025-10-30T13:26:58Z) - From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - CURE: Critical-Token-Guided Re-Concatenation for Entropy-Collapse Prevention [24.71056659948577]
本稿では,探索と利用のバランスをとる2段階フレームワークCURE(Critical-token-gUided Re Concatenation for Entropy-collapse Prevention)を紹介する。
CUREは6つのベンチマークで5%のパフォーマンス向上を実現し、エントロピーと精度の両方で最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-08-14T18:40:34Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。
我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文 参考訳(メタデータ) (2023-07-14T07:01:48Z) - Language as a Latent Sequence: deep latent variable models for
semi-supervised paraphrase generation [47.33223015862104]
本稿では,観測されたテキストから遅延シーケンス推論を行うVSARという新しい教師なしモデルを提案する。
また、テキストペアからの情報を活用するために、提案したVSARモデルと統合するために設計されたDDLと呼ばれる新しい教師付きモデルを導入する。
実験により, このモデルを組み合わせることで, 完全データに基づく最先端の教師付きベースラインに対して, 競争性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-01-05T19:35:30Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。