論文の概要: AM-PPO: (Advantage) Alpha-Modulation with Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2505.15514v1
- Date: Wed, 21 May 2025 13:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.669445
- Title: AM-PPO: (Advantage) Alpha-Modulation with Proximal Policy Optimization
- Title(参考訳): AM-PPO: (アドバンテージ) 近似ポリシー最適化によるα変調
- Authors: Soham Sane,
- Abstract要約: 本稿では、動的非線形スケーリング機構を用いて利点推定を適応的に変調するPPOの新たな拡張であるAdvantage Modulation PPO(AM-PPO)を紹介する。
AM-PPOは、勾配の更新を安定させ、方針勾配のランドスケープの条件付けを改善するために、利点信号を再確認する。
これらの知見は、強化学習最適化の強化に広く応用できる手法として、有利な変調の可能性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proximal Policy Optimization (PPO) is a widely used reinforcement learning algorithm that heavily relies on accurate advantage estimates for stable and efficient training. However, raw advantage signals can exhibit significant variance, noise, and scale-related issues, impeding optimal learning performance. To address this challenge, we introduce Advantage Modulation PPO (AM-PPO), a novel enhancement of PPO that adaptively modulates advantage estimates using a dynamic, non-linear scaling mechanism. This adaptive modulation employs an alpha controller that dynamically adjusts the scaling factor based on evolving statistical properties of the advantage signals, such as their norm, variance, and a predefined target saturation level. By incorporating a tanh-based gating function driven by these adaptively scaled advantages, AM-PPO reshapes the advantage signals to stabilize gradient updates and improve the conditioning of the policy gradient landscape. Crucially, this modulation also influences value function training by providing consistent and adaptively conditioned learning targets. Empirical evaluations across standard continuous control benchmarks demonstrate that AM-PPO achieves superior reward trajectories, exhibits sustained learning progression, and significantly reduces the clipping required by adaptive optimizers. These findings underscore the potential of advantage modulation as a broadly applicable technique for enhancing reinforcement learning optimization.
- Abstract(参考訳): Proximal Policy Optimization (PPO) は、安定かつ効率的なトレーニングのための正確な利点推定に大きく依存する、広く使われている強化学習アルゴリズムである。
しかし、生の利点信号は、大きなばらつき、ノイズ、スケールに関連する問題を生じさせ、最適な学習性能を阻害する。
この課題に対処するために、動的非線形スケーリング機構を用いて利点推定を適応的に変調するPPOの新たな拡張であるAdvantage Modulation PPO(AM-PPO)を導入する。
この適応変調は、そのノルム、分散、予め定義された目標飽和レベルなどの利点信号の進化統計特性に基づいて、スケーリング係数を動的に調整するアルファコントローラを用いる。
適応的にスケールしたこれらの利点によって駆動されるタンフベースのゲーティング関数を組み込むことで、AM-PPOは、勾配の更新を安定化し、方針の勾配のランドスケープの条件付けを改善するために、有利な信号を再設定する。
重要な点として、この変調は、一貫した適応的条件付き学習目標を提供することによって、価値関数のトレーニングにも影響を及ぼす。
標準連続制御ベンチマークによる実証評価では、AM-PPOは優れた報奨軌道を達成し、持続的な学習の進行を示し、適応オプティマイザが要求するクリッピングを大幅に削減する。
これらの知見は、強化学習最適化の強化に広く応用できる手法として、有利な変調の可能性を示している。
関連論文リスト
- KIPPO: Koopman-Inspired Proximal Policy Optimization [4.46358470535211]
強化学習(RL)は様々な分野で大きな進歩を遂げてきた。
PPO(Proximal Policy)のような政策勾配法は、性能、安定性、計算効率のバランスのために人気を博している。
論文 参考訳(メタデータ) (2025-05-20T16:25:41Z) - Beyond the Boundaries of Proximal Policy Optimization [17.577317574595206]
この研究は、更新ベクトルのインナーループ推定に分解されるPPOの別の視点を提供する。
本稿では,これらの更新ベクトルを任意の勾配勾配を用いて適用するフレームワークとして,外部近似ポリシー最適化(outer-PPO)を提案する。
方法はBrax, Jumanji, MinAtar環境上で積極的に調整されたPPOベースラインに対して評価される。
論文 参考訳(メタデータ) (2024-11-01T15:29:10Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。
我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。