論文の概要: Bayesian Distributional Policy Gradients
- arxiv url: http://arxiv.org/abs/2103.11265v2
- Date: Tue, 23 Mar 2021 04:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 11:36:37.929858
- Title: Bayesian Distributional Policy Gradients
- Title(参考訳): ベイズ分布政策の勾配
- Authors: Luchen Li, A. Aldo Faisal
- Abstract要約: 分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributional Reinforcement Learning (RL) maintains the entire probability
distribution of the reward-to-go, i.e. the return, providing more learning
signals that account for the uncertainty associated with policy performance,
which may be beneficial for trading off exploration and exploitation and policy
learning in general. Previous works in distributional RL focused mainly on
computing the state-action-return distributions, here we model the state-return
distributions. This enables us to translate successful conventional RL
algorithms that are based on state values into distributional RL. We formulate
the distributional Bellman operation as an inference-based auto-encoding
process that minimises Wasserstein metrics between target/model return
distributions. The proposed algorithm, BDPG (Bayesian Distributional Policy
Gradients), uses adversarial training in joint-contrastive learning to estimate
a variational posterior from the returns. Moreover, we can now interpret the
return prediction uncertainty as an information gain, which allows to obtain a
new curiosity measure that helps BDPG steer exploration actively and
efficiently. We demonstrate in a suite of Atari 2600 games and MuJoCo tasks,
including well known hard-exploration challenges, how BDPG learns generally
faster and with higher asymptotic performance than reference distributional RL
algorithms.
- Abstract(参考訳): distributional reinforcement learning (rl) は報酬から解放までの確率分布全体を維持している。
このリターンは、政策パフォーマンスに関連する不確実性を考慮したより多くの学習シグナルを提供することで、探索や搾取、政策学習全般の取引に有益である可能性がある。
分散RLにおける従来の研究は、状態-作用-復帰分布の計算を中心に、状態-復帰分布をモデル化する。
これにより、状態値に基づく従来のRLアルゴリズムを分散RLに変換することができる。
分布ベルマン演算を,ターゲット/モデルリターン分布間のwassersteinメトリックを最小化する推論に基づく自動エンコーディングプロセスとして定式化する。
提案アルゴリズムであるBDPG (Bayesian Distributional Policy Gradients) は,共用コントラスト学習における逆方向学習を用いて回帰から変動後部を推定する。
さらに, 回帰予測の不確かさを情報ゲインとして解釈し, bdpgの探索を活発かつ効率的に支援する新たな好奇心の指標を得ることができた。
我々は,Atari 2600 ゲームと MuJoCo タスクのスイートにおいて,BDPG が参照分布 RL アルゴリズムよりも一般に速く,漸近的な性能で学習する方法を実証する。
関連論文リスト
- A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T15:35:24Z) - Bag of Policies for Distributional Deep Exploration [7.522221438479138]
Bag of Policies (BoP) はリターン分布推定器上に構築されており、コピーの個体数を維持する。
トレーニング中、各エピソードは1つのヘッドで制御され、収集されたステートアクションペアはすべてのヘッドをオフ・ポリティに更新するために使用される。
ALE Atariゲームにおける実験結果から,BoPは学習時の堅牢性や速度が向上することが示された。
論文 参考訳(メタデータ) (2023-08-03T13:43:03Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。
提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - How Does Return Distribution in Distributional Reinforcement Learning Help Optimization? [10.149055921090572]
ニューラルネットワークZ-Iteration(Neural FZI)フレームワークにおける分布RLの最適化の利点について検討する。
その結果, 分布RLは良好な滑らかさ特性を有し, 安定な勾配を享受できることが示唆された。
本研究は,分布RLアルゴリズムの帰属分布が最適化にどう役立つかを明らかにする。
論文 参考訳(メタデータ) (2022-09-29T02:18:31Z) - Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文 参考訳(メタデータ) (2022-02-06T03:27:05Z) - Robustness and risk management via distributional dynamic programming [13.173307471333619]
我々は,政策評価のための実用的なDPアルゴリズムとともに,分散演算子の新しいクラスを導入する。
我々の手法は、各状態が最悪の部分状態と最良の部分状態に分割される拡張状態空間を通して再構成される。
我々は、分散演算子とDPアルゴリズムを導出し、新しい制御課題を解決する。
論文 参考訳(メタデータ) (2021-12-28T12:12:57Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - The Benefits of Being Categorical Distributional: Uncertainty-aware
Regularized Exploration in Reinforcement Learning [18.525166928667876]
分布RLのポテンシャル優位性は、回帰密度関数分解法を適用して導出した分布整合正則化に帰着する。
分布RLコンテキストにおけるこの探索されていない正規化は、期待によらず、追加の戻り分布情報を取得することを目的としている。
実験は、古典的RLに対する経験的利益に対する分布RLにおけるこの不確実性を考慮した正規化の重要性を裏付ける。
論文 参考訳(メタデータ) (2021-10-07T03:14:46Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。