Fugu-MT 論文翻訳(概要): When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic

論文の概要: When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic

arxiv url: http://arxiv.org/abs/2603.09950v1
Date: Tue, 10 Mar 2026 17:46:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.512106
Title: When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic
Title（参考訳）: 学習速度が下がったとき:PPOアクター臨界における初期構造信号
Authors: Alberto Fernández-Hernández, Cristian Pérez-Corral, Jose I. Mestre, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí,
Abstract要約: Overfitting-Underfitting Indicator (OUI)は、固定プローブバッチ上のバイナリアクティベーションパターンのバランスを定量化する指標である。トレーニングの10%で測定されたOUIは、LR体制間で既に差別化されている。次に、OUIベースのスクリーニングルールを、早いリターン、クリップベース、ばらつきベース、フリップベースの基準に対して、成功したリコールに対して一致したリコールの下で比較する。
参考スコア（独自算出の注目度）: 1.0518862318418603
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Reinforcement Learning systems are highly sensitive to the learning rate (LR), and selecting stable and performant training runs often requires extensive hyperparameter search. In Proximal Policy Optimization (PPO) actor--critic methods, small LR values lead to slow convergence, whereas large LR values may induce instability or collapse. We analyse this phenomenon from the behavior of the hidden neurons in the network using the Overfitting-Underfitting Indicator (OUI), a metric that quantifies the balance of binary activation patterns over a fixed probe batch. We introduce an efficient batch-based formulation of OUI and derive a theoretical connection between LR and activation sign changes, clarifying how a correct evolution of the neuron's inner structure depends on the step size. Empirically, across three discrete-control environments and multiple seeds, we show that OUI measured at only 10\% of training already discriminates between LR regimes. We observe a consistent asymmetry: critic networks achieving highest return operate in an intermediate OUI band (avoiding saturation), whereas actor networks achieving highest return exhibit comparatively high OUI values. We then compare OUI-based screening rules against early return, clip-based, divergence-based, and flip-based criteria under matched recall over successful runs. In this setting, OUI provides the strongest early screening signal: OUI alone achieves the best precision at broader recall, while combining early return with OUI yields the highest precision in best-performing screening regimes, enabling aggressive pruning of unpromising runs without requiring full training.
Abstract（参考訳）: 深層強化学習システムは、学習速度(LR)に非常に敏感であり、安定的でパフォーマンスの高いトレーニングの実行を選択するには、広範囲なハイパーパラメーター探索が必要となることが多い。 Proximal Policy Optimization (PPO) では、アクタークリティカルな手法では、小さなLR値は収束が遅くなり、大きなLR値は不安定性や崩壊を引き起こす可能性がある。固定プローブバッチ上でのバイナリ活性化パターンのバランスを定量化する指標である Overfitting-Underfitting Indicator (OUI) を用いて、ネットワーク内の隠れニューロンの挙動からこの現象を分析する。我々は, OUIの効率的なバッチベースの定式化を導入し, LRとアクティベーションサインの理論的関連性の変化を導出し, ニューロンの内部構造の正しい進化がステップサイズに依存するかを明らかにする。実験により,3つの個別制御環境と複数種の種子において,OUIがすでにLR体制間で差別化されているのは,トレーニングの10%に過ぎなかった。批評家ネットワークは中間のOUI帯域で最高のリターンを達成し(飽和を回避)、アクターネットワークは比較的高いOUI値を達成している。次に、OUIベースのスクリーニングルールを、早いリターン、クリップベース、ばらつきベース、フリップベースの基準に対して、成功したリコールに対して一致したリコールの下で比較する。この設定では、OUIは最強の早期スクリーニング信号を提供する。 OUI単独は、より広範なリコールにおいて最高の精度を達成し、OUIと早期リターンを組み合わせることで、最高のパフォーマンスのスクリーニングレジームの中で最高の精度を得られる。

関連論文リスト

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2026-01-10T08:43:07Z)
Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-03T13:05:32Z)
On the Unreasonable Effectiveness of Last-layer Retraining [11.989603982988344]
ラスト・レイヤ・リトレーニング(LLR)法は,スプリアス相関への依存を正すための効率的な手法として関心を集めている。 LLRはトレーニングセットの不均衡部分集合である場合でも、最悪のグループ精度を向上させることが判明した。近年のアルゴリズムCB-LLRとAFRはグループバランスを暗黙的に行い、ロバスト性の向上を図っている。
論文参考訳（メタデータ） (2025-12-01T15:08:43Z)
Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-09-28T16:33:07Z)
Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文参考訳（メタデータ） (2025-09-23T16:15:42Z)
ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文参考訳（メタデータ） (2025-06-13T03:41:04Z)
On the Weight Dynamics of Deep Normalized Networks [5.250288418639077]
ディープニューラルネットワークの層間の効果的な学習率(ELR)の相違は、トレーニング容易性に悪影響を及ぼす可能性がある。正規化層を持つネットワークの重み力学をモデル化することにより、これらの相違が時間とともにどのように進化するかを定式化する。一定の学習率のトレーニングでは,初期勾配の爆発にもかかわらず,ELR比が1に収束することが証明された。
論文参考訳（メタデータ） (2023-06-01T14:09:52Z)
Back to Basics: Efficient Network Compression via IMP [22.586474627159287]
イテレーティブ・マグニチュード・プルーニング(IMP)は、ネットワーク・プルーニングにおける最も確立されたアプローチの1つである。 IMPは、トレーニングフェーズにスパーシフィケーションを組み込まないことで、最適以下の状態に達するとしばしば主張される。再学習のためのSLRを用いたIMPは、最先端のプルーニング訓練手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-11-01T11:23:44Z)
Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。適切なLSRが分散を減少させることで収束を加速することを示す。本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文参考訳（メタデータ） (2020-06-20T20:36:17Z)
Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文参考訳（メタデータ） (2020-05-21T12:53:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。