論文の概要: Improving Value Estimation Critically Enhances Vanilla Policy Gradient
- arxiv url: http://arxiv.org/abs/2505.19247v1
- Date: Sun, 25 May 2025 17:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.002853
- Title: Improving Value Estimation Critically Enhances Vanilla Policy Gradient
- Title(参考訳): 価値評価の改善はバニラ政策のグラディエントを著しく向上させる
- Authors: Tao Wang, Ruipeng Zhang, Sicun Gao,
- Abstract要約: TRPOやPPOのような現代的なポリシー勾配アルゴリズムは、多くのRLタスクにおいてバニラポリシー勾配よりも優れている。
より重要な要素は、各イテレーションでより多くの値更新ステップから値推定精度を向上することである。
- 参考スコア(独自算出の注目度): 18.67760937266409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern policy gradient algorithms, such as TRPO and PPO, outperform vanilla policy gradient in many RL tasks. Questioning the common belief that enforcing approximate trust regions leads to steady policy improvement in practice, we show that the more critical factor is the enhanced value estimation accuracy from more value update steps in each iteration. To demonstrate, we show that by simply increasing the number of value update steps per iteration, vanilla policy gradient itself can achieve performance comparable to or better than PPO in all the standard continuous control benchmark environments. Importantly, this simple change to vanilla policy gradient is significantly more robust to hyperparameter choices, opening up the possibility that RL algorithms may still become more effective and easier to use.
- Abstract(参考訳): TRPOやPPOのような現代的なポリシー勾配アルゴリズムは、多くのRLタスクにおいてバニラポリシー勾配よりも優れている。
概略信頼領域の実施が政策の着実な改善につながるという共通の信念に疑問を呈し,各イテレーションにおける付加価値更新ステップからの付加価値推定精度が,より重要な要因であることが示唆された。
そこで本研究では,反復毎に値更新ステップ数を増やすことで,すべての標準連続制御ベンチマーク環境において,バニラポリシー勾配自体がPPOに匹敵するパフォーマンスを達成できることを実証する。
重要なことは、バニラポリシー勾配へのこの単純な変更は、ハイパーパラメータの選択に対してはるかに堅牢であり、RLアルゴリズムが依然としてより効果的で使いやすくなっている可能性を開くことである。
関連論文リスト
- Value Improved Actor Critic Algorithms [5.301318117172143]
我々は,アクタ批判アルゴリズムの標準フレームワークを価値改善とともに拡張する。
このアプローチが一般化政策イテレーションの一般的な分析スキームに収束することを証明する。
実証的には、一般的なオフポリティックなアクター批判アルゴリズムTD3とSACに価値改善を組み込むことで、それぞれのベースラインのパフォーマンスを大幅に改善または一致させる。
論文 参考訳(メタデータ) (2024-06-03T15:24:15Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。
本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。
我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文 参考訳(メタデータ) (2023-02-20T18:23:47Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Beyond the Policy Gradient Theorem for Efficient Policy Updates in
Actor-Critic Algorithms [10.356356383401566]
強化学習では、ある状態における最適な行動は、その後の状態における政策決定に依存する。
政策勾配定理は, 目標値に対する構造対称性のため, 未学習の遅い政策更新を規定する。
我々は、その欠陥を欠いたポリシー更新を導入し、古典的な仮定で$mathcalO(t-1)$で、グローバル最適性への収束の保証を証明した。
論文 参考訳(メタデータ) (2022-02-15T15:04:10Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。