論文の概要: Hindsight Value Function for Variance Reduction in Stochastic Dynamic
Environment
- arxiv url: http://arxiv.org/abs/2107.12216v1
- Date: Mon, 26 Jul 2021 13:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:21:21.309566
- Title: Hindsight Value Function for Variance Reduction in Stochastic Dynamic
Environment
- Title(参考訳): 確率動的環境における分散低減のための後見値関数
- Authors: Jiaming Guo, Rui Zhang, Xishan Zhang, Shaohui Peng, Qi Yi, Zidong Du,
Xing Hu, Qi Guo, Yunji Chen
- Abstract要約: 政策勾配法は、深い強化学習において魅力的であるが、勾配推定のばらつきに悩まされている。
我々は、状態値関数を新しい後見値関数に置き換えることを提案する。
提案した近視関数は、ばらつきを一貫して低減し、トレーニングを安定化し、最終的なポリシーを改善する。
- 参考スコア(独自算出の注目度): 17.19800292331289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient methods are appealing in deep reinforcement learning but
suffer from high variance of gradient estimate. To reduce the variance, the
state value function is applied commonly. However, the effect of the state
value function becomes limited in stochastic dynamic environments, where the
unexpected state dynamics and rewards will increase the variance. In this
paper, we propose to replace the state value function with a novel hindsight
value function, which leverages the information from the future to reduce the
variance of the gradient estimate for stochastic dynamic environments.
Particularly, to obtain an ideally unbiased gradient estimate, we propose an
information-theoretic approach, which optimizes the embeddings of the future to
be independent of previous actions. In our experiments, we apply the proposed
hindsight value function in stochastic dynamic environments, including
discrete-action environments and continuous-action environments. Compared with
the standard state value function, the proposed hindsight value function
consistently reduces the variance, stabilizes the training, and improves the
eventual policy.
- Abstract(参考訳): ポリシー勾配法は、深層強化学習において魅力的であるが、勾配推定の高ばらつきに苦しむ。
分散を減らすために、状態値関数が一般的に適用される。
しかし、状態値関数の効果は確率的動的環境において制限され、予期せぬ状態ダイナミクスと報酬が分散を増加させる。
本稿では,確率的動的環境における勾配推定値のばらつきを低減するために,未来からの情報を生かした新しい隠れ値関数を,状態値関数に置き換えることを提案する。
特に, 理想的に偏りのない勾配推定値を得るために, 将来の埋め込みを最適化する情報理論的手法を提案する。
実験では, 離散動作環境や連続動作環境を含む確率動的環境において, 提案する後続値関数を適用した。
標準状態値関数と比較して,提案手法は分散を一貫して低減し,トレーニングを安定化し,最終的な方針を改善する。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。
本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。
我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文 参考訳(メタデータ) (2023-02-20T18:23:47Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文 参考訳(メタデータ) (2021-03-03T07:28:56Z) - Reducing Conservativeness Oriented Offline Reinforcement Learning [29.895142928565228]
オフライン強化学習では、ポリシーはデータの固定コレクションで累積報酬を最大化する。
保守性指向強化学習を減らす方法を提案する。
提案手法は,提供されたデータセットの歪分布に対処し,期待値関数に近い値関数を導出することができる。
論文 参考訳(メタデータ) (2021-02-27T01:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。