論文の概要: Leveraging the Variance of Return Sequences for Exploration Policy
- arxiv url: http://arxiv.org/abs/2011.08649v1
- Date: Tue, 17 Nov 2020 14:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 15:54:15.847600
- Title: Leveraging the Variance of Return Sequences for Exploration Policy
- Title(参考訳): 探索政策におけるリターンシーケンスのばらつきの活用
- Authors: Zerong Xi, Gita Sukthankar
- Abstract要約: 提案手法は,近い将来のリターンにおいて,リターンシーケンスの揺らぎがより大きな不確実性を示すことを示す。
ばらつきとTD誤差は、この不確実性の異なる側面を捉えるが、我々の分析はどちらも探索のガイドに有用であることを示している。
- 参考スコア(独自算出の注目度): 2.240876415437428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a method for constructing an upper bound for
exploration policy using either the weighted variance of return sequences or
the weighted temporal difference (TD) error. We demonstrate that the variance
of the return sequence for a specific state-action pair is an important
information source that can be leveraged to guide exploration in reinforcement
learning. The intuition is that fluctuation in the return sequence indicates
greater uncertainty in the near future returns. This divergence occurs because
of the cyclic nature of value-based reinforcement learning; the evolving value
function begets policy improvements which in turn modify the value function.
Although both variance and TD errors capture different aspects of this
uncertainty, our analysis shows that both can be valuable to guide exploration.
We propose a two-stream network architecture to estimate weighted variance/TD
errors within DQN agents for our exploration method and show that it
outperforms the baseline on a wide range of Atari games.
- Abstract(参考訳): 本稿では、返却シーケンスの重み付き分散または重み付き時間差(TD)誤差を用いて、探査政策の上限を構築する方法を提案する。
特定状態-動作ペアに対する戻りシーケンスのばらつきは、強化学習における探索のガイドとして活用できる重要な情報源であることを示す。
直感的には、リターンシーケンスの変動は、近い将来のリターンにおける大きな不確実性を示す。
このばらつきは、値に基づく強化学習の循環的な性質から生じ、進化する値関数は、値関数を変更する政策改善を期待する。
ばらつきとTD誤差は、この不確実性の異なる側面を捉えるが、我々の分析はどちらも探索のガイドに有用であることを示している。
探索手法としてDQNエージェント内の重み付き分散/TD誤差を推定する2ストリームネットワークアーキテクチャを提案する。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - On Pitfalls of $\textit{RemOve-And-Retrain}$: Data Processing Inequality
Perspective [5.8010446129208155]
本研究では,RemOve-And-Retrain(ROAR)手法の信頼性について検討した。
理論的基礎と実証的研究から得られた知見から、決定関数に関するより少ない情報を含む属性がROARベンチマークにおいて優れた結果をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-26T21:43:42Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning [44.50394347326546]
多段階リターンからのオフ政治学習は、サンプル効率の強化学習に不可欠である。
オフ政治バイアスは、決定ごとに修正されるが、トレースが完全にカットされると、その効果は逆転できない。
本稿では,多段階演算子を提案する。
論文 参考訳(メタデータ) (2023-01-26T18:57:41Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Amortized Variational Deep Q Network [28.12600565839504]
本稿では,ディープQネットワークにおける動作値関数の後方分布を近似する補正型変分推論フレームワークを提案する。
このアモータイズされたフレームワークは,既存の最先端手法よりも学習パラメータがかなり少ないことを示す。
論文 参考訳(メタデータ) (2020-11-03T13:48:18Z) - The Value-Improvement Path: Towards Better Representations for
Reinforcement Learning [46.70945548475075]
我々は、RLエージェントが直面する値予測問題は、独立して対処すべきではなく、単一の、全体論的、予測問題として扱うべきだと論じる。
RLアルゴリズムは、少なくとも概ね最適なポリシーに向けて改善される一連のポリシーを生成する。
我々は、過去の価値改善パスにまたがる表現が、将来の政策改善に正確な価値評価をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-06-03T12:51:30Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。