論文の概要: An Alternate Policy Gradient Estimator for Softmax Policies
- arxiv url: http://arxiv.org/abs/2112.11622v1
- Date: Wed, 22 Dec 2021 02:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 14:39:04.260686
- Title: An Alternate Policy Gradient Estimator for Softmax Policies
- Title(参考訳): ソフトマックス政策のための代替政策勾配推定器
- Authors: Shivam Garg, Samuele Tosatto, Yangchen Pan, Martha White, A. Rupam
Mahmood
- Abstract要約: ソフトマックス政策のための新しいポリシー勾配推定器を提案する。
バンディットと古典的MDPベンチマークタスクを用いた分析と実験により,我々の推定器は政策飽和に対してより堅牢であることが示された。
- 参考スコア(独自算出の注目度): 36.48028448548086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient (PG) estimators for softmax policies are ineffective with
sub-optimally saturated initialization, which happens when the density
concentrates on a sub-optimal action. Sub-optimal policy saturation may arise
from bad policy initialization or sudden changes in the environment that occur
after the policy has already converged, and softmax PG estimators require a
large number of updates to recover an effective policy. This severe issue
causes high sample inefficiency and poor adaptability to new situations. To
mitigate this problem, we propose a novel policy gradient estimator for softmax
policies that utilizes the bias in the critic estimate and the noise present in
the reward signal to escape the saturated regions of the policy parameter
space. Our analysis and experiments, conducted on bandits and classical MDP
benchmarking tasks, show that our estimator is more robust to policy
saturation.
- Abstract(参考訳): 政策勾配 (PG) のソフトマックス政策推定器は、密度が準最適作用に集中する場合に発生する、準最適飽和初期化には効果がない。
準最適政策飽和は、政策の初期化や政策が既に収束した後の環境の急激な変化から生じ、ソフトマックスPG推定器は効果的な政策を回復するために多数の更新を必要とする。
この深刻な問題は、サンプルの非効率性と新しい状況への適応性の低下を引き起こす。
そこで本研究では,政策パラメータ空間の飽和領域から逃れるために,批評家推定のバイアスと報酬信号に存在する雑音を利用するソフトマックス政策のための新しい政策勾配推定器を提案する。
バンディットと古典的MDPベンチマークタスクを用いた分析と実験により,我々の推定器は政策飽和に対してより堅牢であることが示された。
関連論文リスト
- CSPI-MT: Calibrated Safe Policy Improvement with Multiple Testing for Threshold Policies [30.57323631122579]
我々は、経済、医療、デジタル広告の応用に関する、ユビキタスなポリシーであるしきい値ポリシーに焦点を当てている。
既存の方法は、潜在的に非力な安全チェックに依存し、安全な改善を見つける機会を制限する。
本手法は, 逆条件下では, 既定誤差レベルに対して, 基準値よりも悪いポリシーを採用する確率を制御できることが示される。
論文 参考訳(メタデータ) (2024-08-21T21:38:03Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Local Policy Improvement for Recommender Systems [8.617221361305901]
我々は、以前デプロイされたポリシーから収集されたデータをもとに、新しいポリシーをトレーニングする方法を示す。
我々は,地方政策改善の代替策として,非政治的是正を伴わないアプローチを提案する。
この局所的な政策改善パラダイムはレコメンデーションシステムに理想的であり、以前の方針は一般的に適切な品質であり、ポリシーは頻繁に更新される。
論文 参考訳(メタデータ) (2022-12-22T00:47:40Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。