論文の概要: Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL
- arxiv url: http://arxiv.org/abs/2603.19470v1
- Date: Thu, 19 Mar 2026 21:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.887337
- Title: Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL
- Title(参考訳): 適応層状摂動:LLM RLのオフポリティ補正
- Authors: Chenlu Ye, Xuanchang Zhang, Yifan Hao, Zhou Yu, Ziji Zhang, Abhinav Gullapalli, Hao Chen, Jing Huang, Tong Zhang,
- Abstract要約: 政策の不安定さやトレーニング推論ミスマッチといった非政治的な問題は、トレーニングの安定性の大きなボトルネックとなっている。
更新中に各レイヤの入力隠れ状態に小さな学習可能な摂動を注入することにより、適応層摂動(ALP)を提案する。
ALPは、更新されたポリシーが推論ポリシーから過度に逸脱することを防ぎ、推論ポリシーファミリをミスマッチノイズでカバーするようにポリシーファミリを拡大する。
- 参考スコア(独自算出の注目度): 26.49103739671071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy problems such as policy staleness and training-inference mismatch, has become a major bottleneck for training stability and further exploration for LLM RL. To enhance inference efficiency, the distribution gap between the inference and updated policy grows, leading to heavy-tailed importance ratios. Heavy-tailed ratios arise when the policy is locally sharp, which further inflates sharp gradients and can push updates outside the trust region. To address this, we propose Adaptive Layerwise Perturbation(ALP) by injecting small learnable perturbations into input hidden states of each layer during updates, which is used as the numerator of the importance ratio against the unchanged inference policy in the objective. Intuitively, by adding controlled noise to intermediate representations, ALP prevents the updated policy from deviating too sharply from the inference policy, and enlarges the policy family to cover the inference policy family with mismatch noises. Hence, the flattened distribution can naturally tighten the updated and inference policy gap and reduce the tail of importance ratios, thus maintaining training stability. This is further validated empirically. Experiments on single-turn math and multi-turn tool-integrated reasoning tasks show that ALP not only improves final performance, but also avoid blow up of importance ratio tail and KL spikes during iterative training, along with boosted exploration. Ablations show that representation-level perturbations across all layers are most effective, substantially outperforming partial-layer and logits-only variants.
- Abstract(参考訳): 政策の不安定性やトレーニング推論ミスマッチといった非政治的な問題は、トレーニングの安定性とLLM RLのさらなる探索において大きなボトルネックとなっている。
推論効率を高めるために、推論と更新されたポリシーの間の分配ギャップが増加し、重み付けされた重要度比が生まれる。
ヘビーテールの比率は、政策が局所的に鋭いときに生じ、さらに急勾配を膨らませ、信頼領域の外で更新をプッシュすることができる。
そこで本稿では,更新中に各レイヤの入力された隠れ状態に小さな学習可能な摂動を注入することにより,ALP(Adaptive Layerwise Perturbation)を提案する。
直感的には、中間表現に制御ノイズを加えることで、ALPは、更新されたポリシーが推論ポリシーから過度に逸脱することを防ぐとともに、推論ポリシーファミリをミスマッチノイズでカバーするようにポリシーファミリを拡大する。
これにより、フラット化された分布は、更新および推論ポリシーギャップを自然に締め付け、重要度のテールを低減し、トレーニング安定性を維持することができる。
これはさらに実証的に検証される。
単ターン数学と多ターンツール統合推論タスクの実験は、ALPが最終性能を向上するだけでなく、反復訓練中に重要度比尾とKLスパイクの爆発を避けるとともに、探索が促進されたことを示している。
アブレーションは、すべての層にまたがる表現レベルの摂動が最も効果的であり、部分層とロジットのみの変種を著しく上回っていることを示している。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。