Fugu-MT 論文翻訳(概要): AM-PPO: (Advantage) Alpha-Modulation with Proximal Policy Optimization

論文の概要: AM-PPO: (Advantage) Alpha-Modulation with Proximal Policy Optimization

arxiv url: http://arxiv.org/abs/2505.15514v1
Date: Wed, 21 May 2025 13:38:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.669445
Title: AM-PPO: (Advantage) Alpha-Modulation with Proximal Policy Optimization
Title（参考訳）: AM-PPO: (アドバンテージ) 近似ポリシー最適化によるα変調
Authors: Soham Sane,
Abstract要約: 本稿では、動的非線形スケーリング機構を用いて利点推定を適応的に変調するPPOの新たな拡張であるAdvantage Modulation PPO(AM-PPO)を紹介する。 AM-PPOは、勾配の更新を安定させ、方針勾配のランドスケープの条件付けを改善するために、利点信号を再確認する。これらの知見は、強化学習最適化の強化に広く応用できる手法として、有利な変調の可能性を示している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Proximal Policy Optimization (PPO) is a widely used reinforcement learning algorithm that heavily relies on accurate advantage estimates for stable and efficient training. However, raw advantage signals can exhibit significant variance, noise, and scale-related issues, impeding optimal learning performance. To address this challenge, we introduce Advantage Modulation PPO (AM-PPO), a novel enhancement of PPO that adaptively modulates advantage estimates using a dynamic, non-linear scaling mechanism. This adaptive modulation employs an alpha controller that dynamically adjusts the scaling factor based on evolving statistical properties of the advantage signals, such as their norm, variance, and a predefined target saturation level. By incorporating a tanh-based gating function driven by these adaptively scaled advantages, AM-PPO reshapes the advantage signals to stabilize gradient updates and improve the conditioning of the policy gradient landscape. Crucially, this modulation also influences value function training by providing consistent and adaptively conditioned learning targets. Empirical evaluations across standard continuous control benchmarks demonstrate that AM-PPO achieves superior reward trajectories, exhibits sustained learning progression, and significantly reduces the clipping required by adaptive optimizers. These findings underscore the potential of advantage modulation as a broadly applicable technique for enhancing reinforcement learning optimization.
Abstract（参考訳）: Proximal Policy Optimization (PPO) は、安定かつ効率的なトレーニングのための正確な利点推定に大きく依存する、広く使われている強化学習アルゴリズムである。しかし、生の利点信号は、大きなばらつき、ノイズ、スケールに関連する問題を生じさせ、最適な学習性能を阻害する。この課題に対処するために、動的非線形スケーリング機構を用いて利点推定を適応的に変調するPPOの新たな拡張であるAdvantage Modulation PPO(AM-PPO)を導入する。この適応変調は、そのノルム、分散、予め定義された目標飽和レベルなどの利点信号の進化統計特性に基づいて、スケーリング係数を動的に調整するアルファコントローラを用いる。適応的にスケールしたこれらの利点によって駆動されるタンフベースのゲーティング関数を組み込むことで、AM-PPOは、勾配の更新を安定化し、方針の勾配のランドスケープの条件付けを改善するために、有利な信号を再設定する。重要な点として、この変調は、一貫した適応的条件付き学習目標を提供することによって、価値関数のトレーニングにも影響を及ぼす。標準連続制御ベンチマークによる実証評価では、AM-PPOは優れた報奨軌道を達成し、持続的な学習の進行を示し、適応オプティマイザが要求するクリッピングを大幅に削減する。これらの知見は、強化学習最適化の強化に広く応用できる手法として、有利な変調の可能性を示している。

関連論文リスト

Logarithmic Smoothing for Adaptive PAC-Bayesian Off-Policy Learning [4.48890356952206]
オフ政治学習は、ログ化された相互作用から最適なポリシーを学ぶための主要なフレームワークとなる。我々はこのフレームワークをオンラインPAC-ベイジアン理論のツールを用いて適応シナリオに拡張する。
論文参考訳（メタデータ） (2025-06-12T12:54:09Z)
BNPO: Beta Normalization Policy Optimization [9.60676665395923]
動的に更新されたパラメータを持つベータ分布を用いて報酬を適応的に正規化する新しいポリシー最適化手法を提案する。本稿では,BNPOの分散還元特性を理論的に証明し,二値報酬設定の下でREINFORCEとGRPOの両方を一般化することを示す。実験の結果,BNPOは推論タスクにおけるポリシー最適化手法の最先端性能を達成できることを確認した。
論文参考訳（メタデータ） (2025-06-03T13:28:57Z)
On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。 OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文参考訳（メタデータ） (2025-05-29T15:58:04Z)
KIPPO: Koopman-Inspired Proximal Policy Optimization [4.46358470535211]
強化学習(RL)は様々な分野で大きな進歩を遂げてきた。 PPO(Proximal Policy)のような政策勾配法は、性能、安定性、計算効率のバランスのために人気を博している。
論文参考訳（メタデータ） (2025-05-20T16:25:41Z)
AYLA: Amplifying Gradient Sensitivity via Loss Transformation in Non-Convex Optimization [0.0]
Gradient Descent (SGD)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。本稿では、動的トレーニングを強化する新しいフレームワークであるAYLAを紹介する。
論文参考訳（メタデータ） (2025-04-02T16:31:39Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
Beyond the Boundaries of Proximal Policy Optimization [17.577317574595206]
この研究は、更新ベクトルのインナーループ推定に分解されるPPOの別の視点を提供する。本稿では,これらの更新ベクトルを任意の勾配勾配を用いて適用するフレームワークとして,外部近似ポリシー最適化(outer-PPO)を提案する。方法はBrax, Jumanji, MinAtar環境上で積極的に調整されたPPOベースラインに対して評価される。
論文参考訳（メタデータ） (2024-11-01T15:29:10Z)
$α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文参考訳（メタデータ） (2024-10-14T04:29:57Z)
Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-08T18:51:01Z)
FADAS: Towards Federated Adaptive Asynchronous Optimization [56.09666452175333]
フェデレートラーニング(FL)は、プライバシ保護機械学習のトレーニングパラダイムとして広く採用されている。本稿では、非同期更新を適応的フェデレーション最適化と証明可能な保証に組み込む新しい手法であるFADASについて紹介する。提案アルゴリズムの収束率を厳格に確立し,FADASが他の非同期FLベースラインよりも優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2024-07-25T20:02:57Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文参考訳（メタデータ） (2023-12-12T06:35:56Z)
Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。また,損失関数の設計を支援する理論的正当性も提供する。
論文参考訳（メタデータ） (2023-06-04T01:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。