論文の概要: Generalized Advantage Estimation for Distributional Policy Gradients
- arxiv url: http://arxiv.org/abs/2507.17530v1
- Date: Wed, 23 Jul 2025 14:07:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.035611
- Title: Generalized Advantage Estimation for Distributional Policy Gradients
- Title(参考訳): 分散政策勾配の一般化アドバンテージ推定
- Authors: Shahil Shaik, Jonathon M. Smereka, Yue Wang,
- Abstract要約: 一般化アドバンテージ推定(GAE)は、強化学習(RL)の計算複雑性を軽減するために用いられている。
本稿では, 最適輸送理論を用いて, 確率分布間の距離と方向のずれを測る, ワッサーシュタイン型指向性計量を導入する手法を提案する。
指数関数的に重み付けされた推定を用いて、このワッサーシュタインのような方向測度を用いて分布GAE(DGAE)を導出する。
- 参考スコア(独自算出の注目度): 3.878500880725885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalized Advantage Estimation (GAE) has been used to mitigate the computational complexity of reinforcement learning (RL) by employing an exponentially weighted estimation of the advantage function to reduce the variance in policy gradient estimates. Despite its effectiveness, GAE is not designed to handle value distributions integral to distributional RL, which can capture the inherent stochasticity in systems and is hence more robust to system noises. To address this gap, we propose a novel approach that utilizes the optimal transport theory to introduce a Wasserstein-like directional metric, which measures both the distance and the directional discrepancies between probability distributions. Using the exponentially weighted estimation, we leverage this Wasserstein-like directional metric to derive distributional GAE (DGAE). Similar to traditional GAE, our proposed DGAE provides a low-variance advantage estimate with controlled bias, making it well-suited for policy gradient algorithms that rely on advantage estimation for policy updates. We integrated DGAE into three different policy gradient methods. Algorithms were evaluated across various OpenAI Gym environments and compared with the baselines with traditional GAE to assess the performance.
- Abstract(参考訳): 一般化アドバンテージ推定(GAE)は、政策勾配推定のばらつきを低減するために、指数的に重み付けされた利点関数の推定を用いて強化学習(RL)の計算複雑性を軽減するために用いられる。
有効性にもかかわらず、GAEは分散RLに不可欠な値分布を扱うように設計されておらず、システム固有の確率性を捉えることができ、システムノイズに対してより堅牢である。
このギャップに対処するために,確率分布間の距離と方向のずれを測るワッサーシュタイン型指向性計量を導入するために,最適輸送理論を利用する新しい手法を提案する。
指数的に重み付けされた推定法を用いて、このワッサーシュタインのような方向測度を用いて分布GAE(DGAE)を導出する。
従来のGAEと同様に、提案したDGAEは、制御バイアスを伴う低分散利得推定を提供するため、ポリシー更新に有利な推定に依存するポリシー勾配アルゴリズムに適している。
DGAEを3つの異なるポリシー勾配法に統合した。
アルゴリズムは様々なOpenAI Gym環境で評価され、ベースラインと従来のGAEを比較して性能を評価した。
関連論文リスト
- On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [50.856589224454055]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
オンライン強化学習環境におけるKL正規化政策勾配法を導出・解析するためのフレームワークである正則化政策勾配(RPG)を提案する。
RPGは、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニングの安定性とパフォーマンスの面で改善あるいは競争力のある結果を示している。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - EVAL: EigenVector-based Average-reward Learning [4.8748194765816955]
ニューラルネットワークによる関数近似に基づくアプローチを開発する。
エントロピー正則化を使わずに, 平均回帰RL問題を解く方法を示す。
論文 参考訳(メタデータ) (2025-01-15T19:00:45Z) - BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback [30.894025833141537]
勾配推定の高分散が、これらの手法の成功の欠如の主な原因である。
我々はベイズの規則を用いて DPG, GDC, DPO の目標分布を一般化し、報酬条件後部を定義する。
結果として得られたアプローチは、BRAInと呼ばれ、要約やアントロピー的HHタスクにおいて、先行技術よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-02-04T13:16:29Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - Partial advantage estimator for proximal policy optimization [0.0]
Generalized Advantage Estimation (GAE) は、$lambda$-returnのような利点関数の指数的に重み付けされた推定器である。
現実的な応用では、軌道の不完全性により切り離されたGAEが使われ、推定時に大きなバイアスが生じる。
本稿では,不完全な軌道の偏りを著しく低減する更新計算において,その一部を取ることを提案する。
論文 参考訳(メタデータ) (2023-01-26T03:42:39Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。