Fugu-MT 論文翻訳(概要): Balanced Actor Initialization: Stable RLHF Training of Distillation-Based Reasoning Models

論文の概要: Balanced Actor Initialization: Stable RLHF Training of Distillation-Based Reasoning Models

arxiv url: http://arxiv.org/abs/2509.00309v1
Date: Sat, 30 Aug 2025 01:53:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-04 15:17:03.170249
Title: Balanced Actor Initialization: Stable RLHF Training of Distillation-Based Reasoning Models
Title（参考訳）: 平衡アクター初期化:蒸留に基づく推論モデルの安定RLHFトレーニング
Authors: Chen Zheng, Yiyuan Ma, Yuan Yang, Deyi Liu, Jing Liu, Zuquan Song, Yuxin Song, Cheng Ren, Hang Zhu, Xin Liu, Yiyuan Ma, Siyuan Qiao, Xun Zhou, Liang Xiang, Yonghui Wu,
Abstract要約: 大規模言語モデルにおけるアライメントと推論能力の開発は目覚ましい進歩を遂げた。 RLHFを蒸留訓練モデルに適用する第3のパラダイムは、重大な課題を示す。本稿では,2段階重み付きモデルマージ手法であるBa balanced Actor Initialization (BAI)を提案する。
参考スコア（独自算出の注目度）: 27.0496567592082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The development of alignment and reasoning capabilities in large language models has seen remarkable progress through two paradigms: instruction tuning and reinforcement learning from human feedback (RLHF) alignment paradigm, and distillation-based reasoning fine-tuning paradigm. While both approaches prove effective independently, the third paradigm of applying RLHF to distillation-trained models presents significant challenges. Our investigation reveals two critical phenomena that emerge in this paradigm: Sequence Length Collapse, where language generation dramatically reduces during early RLHF training, and the Reward Hockey Stick Curve, featuring severe reward score drops followed by gradual recovery. These instabilities fundamentally compromise the model's alignment and reasoning capabilities. To address these challenges, we propose Balanced Actor Initialization (BAI), a two-stage weighted model merging approach. BAI first merges instruction-following and distillation-based reasoning fine-tuned models, then further combines this intermediate model with the pretrained model to preserve foundational knowledge. Through comprehensive experiments across diverse benchmarks and detailed analysis of training experiments, we demonstrate that BAI resolves Sequence Length Collapse, mitigates the Reward Hockey Stick Curve, and enables continuous sequence length improvement during training. Additionally, our analysis reveals that balanced merging ratios achieve optimal trade-offs between training stability and reasoning capability preservation. Our work provides the effective solution for stable training in this third paradigm, enabling more capable reasoning models that combine distillation efficiency with RLHF alignment.
Abstract（参考訳）: 大規模言語モデルにおけるアライメントと推論能力の発達は、ヒューマンフィードバックアライメントパラダイム(RLHF)からの指導チューニングと強化学習、蒸留に基づく推論微調整パラダイムの2つのパラダイムを通じて顕著に進展している。どちらの手法も独立に有効であることが証明されているが、RLHFを蒸留訓練モデルに適用する第3のパラダイムは重要な課題である。このパラダイムでは,早期のRLHFトレーニングにおいて言語生成が劇的に減少するシーケンス長崩壊(Sequence Length Collapse)と,厳格な報酬の減少と段階的な回復を特徴とするReward Hockey Stick Curve(Reward Hockey Stick Curve)という2つの重要な現象が報告されている。これらの不安定さは、モデルのアライメントと推論能力を根本的に損なう。これらの課題に対処するため、我々は2段階重み付けモデルマージ手法であるBa balanced Actor Initialization (BAI)を提案する。 BAIはまず、命令追従と蒸留に基づく微調整モデルとをマージし、さらにこの中間モデルと事前訓練されたモデルを組み合わせて基礎知識を保存する。多様なベンチマークにわたる総合的な実験と、トレーニング実験の詳細な分析を通じて、BAIがシーケンス長の崩壊を解消し、リワードホッケースティック曲線を緩和し、トレーニング中に連続的なシーケンス長の改善を可能にすることを実証する。さらに,本分析の結果から,バランスの取れたマージ比がトレーニング安定性と推論能力の最適トレードオフを実現することが明らかとなった。本研究は, 蒸留効率とRLHFアライメントを併用したより有能な推論モデルを実現するため, この第3パラダイムの安定トレーニングに有効なソリューションを提供する。

関連論文リスト

CURE: Critical-Token-Guided Re-Concatenation for Entropy-Collapse Prevention [24.71056659948577]
本稿では,探索と利用のバランスをとる2段階フレームワークCURE(Critical-token-gUided Re Concatenation for Entropy-collapse Prevention)を紹介する。 CUREは6つのベンチマークで5%のパフォーマンス向上を実現し、エントロピーと精度の両方で最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-08-14T18:40:34Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文参考訳（メタデータ） (2025-03-08T11:19:48Z)
Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。 HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文参考訳（メタデータ） (2024-10-10T19:06:23Z)
The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文参考訳（メタデータ） (2024-04-01T16:00:01Z)
Learn from the Past: A Proxy Guided Adversarial Defense Framework with Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。 AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文参考訳（メタデータ） (2023-10-19T13:13:41Z)
Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文参考訳（メタデータ） (2023-07-14T07:01:48Z)
Language as a Latent Sequence: deep latent variable models for semi-supervised paraphrase generation [47.33223015862104]
本稿では,観測されたテキストから遅延シーケンス推論を行うVSARという新しい教師なしモデルを提案する。また、テキストペアからの情報を活用するために、提案したVSARモデルと統合するために設計されたDDLと呼ばれる新しい教師付きモデルを導入する。実験により, このモデルを組み合わせることで, 完全データに基づく最先端の教師付きベースラインに対して, 競争性能が向上することが示唆された。
論文参考訳（メタデータ） (2023-01-05T19:35:30Z)
Training Generative Adversarial Networks by Solving Ordinary Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文参考訳（メタデータ） (2020-10-28T15:23:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。