論文の概要: Accelerating Policy Gradient by Estimating Value Function from Prior
Computation in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.01399v1
- Date: Thu, 2 Feb 2023 20:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 18:27:24.438954
- Title: Accelerating Policy Gradient by Estimating Value Function from Prior
Computation in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における事前計算からの値関数推定による政策勾配の促進
- Authors: Md Masudur Rahman and Yexiang Xue
- Abstract要約: そこで本研究では,事前計算を用いて値関数を推定し,オンライン政策勾配法におけるサンプル効率を向上する方法について検討する。
特に,対象タスクに対する新しい値関数を事前の値推定と組み合わせて学習する。
結果の値関数は、ポリシー勾配法におけるベースラインとして使用される。
- 参考スコア(独自算出の注目度): 16.999444076456268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the use of prior computation to estimate the value
function to improve sample efficiency in on-policy policy gradient methods in
reinforcement learning. Our approach is to estimate the value function from
prior computations, such as from the Q-network learned in DQN or the value
function trained for different but related environments. In particular, we
learn a new value function for the target task while combining it with a value
estimate from the prior computation. Finally, the resulting value function is
used as a baseline in the policy gradient method. This use of a baseline has
the theoretical property of reducing variance in gradient computation and thus
improving sample efficiency. The experiments show the successful use of prior
value estimates in various settings and improved sample efficiency in several
tasks.
- Abstract(参考訳): 本稿では,事前計算を用いて,強化学習におけるオンライン政策勾配法におけるサンプル効率向上のための値関数を推定する。
提案手法は,dqnで学習したqネットワークや,異なるが関連する環境で訓練された値関数から,事前計算から値関数を推定する。
特に,事前計算から推定値と組み合わせることで,対象タスクの新たな値関数を学習する。
最後に、得られた値関数を、ポリシー勾配法におけるベースラインとして用いる。
このベースラインの使用は、勾配計算のばらつきを低減し、試料効率を向上させる理論的性質を有する。
実験では,様々な場面で事前値推定が成功し,複数のタスクでサンプル効率が向上したことを示す。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation [22.129001951441015]
既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:45:51Z) - Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。
本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。
我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文 参考訳(メタデータ) (2023-02-20T18:23:47Z) - Variance Reduction for Score Functions Using Optimal Baselines [0.0]
本稿では,スコア関数の分散化手法であるベースラインについて検討する。
主に強化学習によって動機付けされ、最適な状態依存ベースラインの表現が初めて導かれる。
論文 参考訳(メタデータ) (2022-12-27T19:17:28Z) - A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions [39.17511693008055]
値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
値関数を推定する際に使用されるターゲットのブートストラップに焦点を当てる。
新たなバックアップターゲットである$eta$-returnmixを提案する。
論文 参考訳(メタデータ) (2022-01-05T21:54:55Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Taylor Expansion of Discount Factors [56.46324239692532]
実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。
本研究では,この割引要因の相違が学習中に与える影響について検討し,2つの異なる割引要因の値関数を補間する目的のファミリーを発見する。
論文 参考訳(メタデータ) (2021-06-11T05:02:17Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。