Fugu-MT 論文翻訳(概要): Hindsight Value Function for Variance Reduction in Stochastic Dynamic Environment

論文の概要: Hindsight Value Function for Variance Reduction in Stochastic Dynamic Environment

arxiv url: http://arxiv.org/abs/2107.12216v1
Date: Mon, 26 Jul 2021 13:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-27 16:21:21.309566
Title: Hindsight Value Function for Variance Reduction in Stochastic Dynamic Environment
Title（参考訳）: 確率動的環境における分散低減のための後見値関数
Authors: Jiaming Guo, Rui Zhang, Xishan Zhang, Shaohui Peng, Qi Yi, Zidong Du, Xing Hu, Qi Guo, Yunji Chen
Abstract要約: 政策勾配法は、深い強化学習において魅力的であるが、勾配推定のばらつきに悩まされている。我々は、状態値関数を新しい後見値関数に置き換えることを提案する。提案した近視関数は、ばらつきを一貫して低減し、トレーニングを安定化し、最終的なポリシーを改善する。
参考スコア（独自算出の注目度）: 17.19800292331289
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Policy gradient methods are appealing in deep reinforcement learning but suffer from high variance of gradient estimate. To reduce the variance, the state value function is applied commonly. However, the effect of the state value function becomes limited in stochastic dynamic environments, where the unexpected state dynamics and rewards will increase the variance. In this paper, we propose to replace the state value function with a novel hindsight value function, which leverages the information from the future to reduce the variance of the gradient estimate for stochastic dynamic environments. Particularly, to obtain an ideally unbiased gradient estimate, we propose an information-theoretic approach, which optimizes the embeddings of the future to be independent of previous actions. In our experiments, we apply the proposed hindsight value function in stochastic dynamic environments, including discrete-action environments and continuous-action environments. Compared with the standard state value function, the proposed hindsight value function consistently reduces the variance, stabilizes the training, and improves the eventual policy.
Abstract（参考訳）: ポリシー勾配法は、深層強化学習において魅力的であるが、勾配推定の高ばらつきに苦しむ。分散を減らすために、状態値関数が一般的に適用される。しかし、状態値関数の効果は確率的動的環境において制限され、予期せぬ状態ダイナミクスと報酬が分散を増加させる。本稿では,確率的動的環境における勾配推定値のばらつきを低減するために,未来からの情報を生かした新しい隠れ値関数を,状態値関数に置き換えることを提案する。特に, 理想的に偏りのない勾配推定値を得るために, 将来の埋め込みを最適化する情報理論的手法を提案する。実験では, 離散動作環境や連続動作環境を含む確率動的環境において, 提案する後続値関数を適用した。標準状態値関数と比較して,提案手法は分散を一貫して低減し,トレーニングを安定化し,最終的な方針を改善する。

関連論文リスト

Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-29T12:31:38Z)
Risk-averse Learning with Non-Stationary Distributions [18.15046585146849]
本稿では,ランダムなコスト分布が時間とともに変化するリスク-逆オンライン最適化について検討する。リスクの条件値(CVaR)をリスク尺度として用いたリスク逆目的関数を最小化する。設計した学習アルゴリズムは,凸関数と凸関数の両方に対して高い確率で線形動的後悔を実現する。
論文参考訳（メタデータ） (2024-04-03T18:16:47Z)
Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文参考訳（メタデータ） (2023-02-20T18:23:47Z)
Post Reinforcement Learning Inference [22.117487428829488]
強化学習アルゴリズムから収集したデータを用いた推定と推定について検討する。本稿では,時間変化の分散を安定化させるために,適応重みを慎重に設計した重み付きZ推定手法を提案する。主な応用は、動的処理効果推定と動的オフポリシー評価である。
論文参考訳（メタデータ） (2023-02-17T12:53:15Z)
The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。世界的な最適な政策勾配(NPG)に収束する。 O (1/t) レート勾配でのポリシー。値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文参考訳（メタデータ） (2023-01-16T06:28:00Z)
Robust and Adaptive Temporal-Difference Learning Using An Ensemble of Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。 OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。 1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文参考訳（メタデータ） (2021-12-01T23:15:09Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)
Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文参考訳（メタデータ） (2021-05-25T19:48:35Z)
Foresee then Evaluate: Decomposing Value Estimation with Latent Future Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である将来予測付き価値分解(VDFP)を提案する。価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文参考訳（メタデータ） (2021-03-03T07:28:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。