論文の概要: Mode-Dependent Rectification for Stable PPO Training
- arxiv url: http://arxiv.org/abs/2602.05619v1
- Date: Thu, 05 Feb 2026 12:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.932764
- Title: Mode-Dependent Rectification for Stable PPO Training
- Title(参考訳): 安定PPOトレーニングのためのモード依存的整流
- Authors: Mohamad Mohamad, Francesco Ponzio, Xavier Descombes,
- Abstract要約: モード依存アーキテクチャコンポーネント(トレーニングと評価の間に異なる振る舞いをするレイヤ)は、視覚的強化学習で一般的に使用されるが、オン・ポリティクスの最適化を不安定にすることができる。
本稿では, PPOにおいて, バッチ正規化による評価行動とトレーニングの相違が, 政策ミスマッチ, 分散ドリフト, 報酬崩壊につながることを示す。
本稿では,モード依存層下でPPOを安定化する軽量な2相学習法であるモード依存整流法を提案する。
- 参考スコア(独自算出の注目度): 0.8315801422499861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mode-dependent architectural components (layers that behave differently during training and evaluation, such as Batch Normalization or dropout) are commonly used in visual reinforcement learning but can destabilize on-policy optimization. We show that in Proximal Policy Optimization (PPO), discrepancies between training and evaluation behavior induced by Batch Normalization lead to policy mismatch, distributional drift, and reward collapse. We propose Mode-Dependent Rectification (MDR), a lightweight dual-phase training procedure that stabilizes PPO under mode-dependent layers without architectural changes. Experiments across procedurally generated games and real-world patch-localization tasks demonstrate that MDR consistently improves stability and performance, and extends naturally to other mode-dependent layers.
- Abstract(参考訳): モード依存アーキテクチャコンポーネント(バッチ正規化やドロップアウトなど、トレーニングと評価の間に異なる振る舞いをするレイヤ)は、視覚的強化学習で一般的に使用されるが、政治上の最適化を不安定にすることができる。
本稿では, PPOにおいて, バッチ正規化による評価行動とトレーニングの相違が, 政策ミスマッチ, 分散ドリフト, 報酬崩壊につながることを示す。
本稿では,モード依存層下でPPOを安定化する軽量な2相学習法であるモード依存整流法を提案する。
手続き的に生成されたゲームと実世界のパッチローカライズタスクによる実験により、MDRは安定性と性能を一貫して改善し、他のモード依存層に自然に拡張することを示した。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。