論文の概要: Stabilizing Policy Gradient Methods via Reward Profiling
- arxiv url: http://arxiv.org/abs/2511.16629v1
- Date: Thu, 20 Nov 2025 18:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.786801
- Title: Stabilizing Policy Gradient Methods via Reward Profiling
- Title(参考訳): リワードプロファイリングによる政策グラディエント手法の安定化
- Authors: Shihab Ahmed, El Houcine Bergou, Aritra Dutta, Yue Wang,
- Abstract要約: 本稿では,任意のポリシー勾配アルゴリズムとシームレスに統合可能なユニバーサル報酬プロファイルフレームワークを提案する。
我々のプロファイリングアプローチは、より信頼性が高く効率的な政策学習への一般的な、理論的に根拠のある道を提供する。
- 参考スコア(独自算出の注目度): 8.888381917982024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy gradient methods, which have been extensively studied in the last decade, offer an effective and efficient framework for reinforcement learning problems. However, their performances can often be unsatisfactory, suffering from unreliable reward improvements and slow convergence, due to high variance in gradient estimations. In this paper, we propose a universal reward profiling framework that can be seamlessly integrated with any policy gradient algorithm, where we selectively update the policy based on high-confidence performance estimations. We theoretically justify that our technique will not slow down the convergence of the baseline policy gradient methods, but with high probability, will result in stable and monotonic improvements of their performance. Empirically, on eight continuous-control benchmarks (Box2D and MuJoCo/PyBullet), our profiling yields up to 1.5x faster convergence to near-optimal returns, up to 1.75x reduction in return variance on some setups. Our profiling approach offers a general, theoretically grounded path to more reliable and efficient policy learning in complex environments.
- Abstract(参考訳): 過去10年間に広く研究されてきた政策勾配法は、強化学習問題に対する効果的かつ効率的な枠組みを提供する。
しかし、それらの性能はしばしば不満足であり、勾配推定のばらつきが大きいため、信頼できない報酬改善と緩やかな収束に悩まされる。
本稿では、任意のポリシー勾配アルゴリズムとシームレスに統合可能なユニバーサル報酬プロファイルフレームワークを提案し、高信頼度性能推定に基づいてポリシーを選択的に更新する。
理論的には,本手法は基本方針勾配法の収束を遅らせるものではないが,高い確率で安定かつ単調な性能向上をもたらす。
実証的に、8つの連続制御ベンチマーク(Box2D と MuJoCo/PyBullet)では、プロファイルは最大1.5倍高速収束し、ほぼ最適リターンとなり、いくつかの設定では最大1.75倍のリターン分散が減少する。
我々のプロファイリングアプローチは、複雑な環境におけるより信頼性が高く効率的な政策学習への一般的な、理論的に基礎付けられた経路を提供する。
関連論文リスト
- Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - Convergence and Optimality of Policy Gradient Methods in Weakly Smooth
Settings [17.437408088239142]
我々は不透明な条件に頼らずに政策勾配法の明確な収束率を確立する。
また, ニアリニアMDPのエルゴディディディティに対する十分条件を特徴付ける。
収束政策の最適性に関する条件と分析を提供する。
論文 参考訳(メタデータ) (2021-10-30T06:31:01Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。