論文の概要: The Benefits of Being Categorical Distributional: Uncertainty-aware
Regularized Exploration in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.03155v5
- Date: Fri, 2 Feb 2024 18:31:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 21:01:16.737226
- Title: The Benefits of Being Categorical Distributional: Uncertainty-aware
Regularized Exploration in Reinforcement Learning
- Title(参考訳): カテゴリー分布の利点:強化学習における不確かさを意識した正規化探索
- Authors: Ke Sun, Yingnan Zhao, Enze Shi, Yafei Wang, Xiaodong Yan, Bei Jiang,
Linglong Kong
- Abstract要約: 分布RLのポテンシャル優位性は、回帰密度関数分解法を適用して導出した分布整合正則化に帰着する。
分布RLコンテキストにおけるこの探索されていない正規化は、期待によらず、追加の戻り分布情報を取得することを目的としている。
実験は、古典的RLに対する経験的利益に対する分布RLにおけるこの不確実性を考慮した正規化の重要性を裏付ける。
- 参考スコア(独自算出の注目度): 18.525166928667876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The theoretical advantages of distributional reinforcement learning~(RL) over
classical RL remain elusive despite its remarkable empirical performance.
Starting from Categorical Distributional RL~(CDRL), we attribute the potential
superiority of distributional RL to a derived distribution-matching
regularization by applying a return density function decomposition technique.
This unexplored regularization in the distributional RL context is aimed at
capturing additional return distribution information regardless of only its
expectation, contributing to an augmented reward signal in the policy
optimization. Compared with the entropy regularization in MaxEnt RL that
explicitly optimizes the policy to encourage the exploration, the resulting
regularization in CDRL implicitly optimizes policies guided by the new reward
signal to align with the uncertainty of target return distributions, leading to
an uncertainty-aware exploration effect. Finally, extensive experiments
substantiate the importance of this uncertainty-aware regularization in
distributional RL on the empirical benefits over classical RL.
- Abstract(参考訳): 古典的RLに対する分布強化学習(RL)の理論的優位性は、その顕著な経験的性能にもかかわらず、解明され続けている。
分類的分布RL~(CDRL)から始め、分布RLのポテンシャル優位性を、回帰密度関数分解法を適用して導出した分布整合正規化に帰着する。
この分散rlコンテキストにおける未検討の正規化は、期待のみによらず追加のリターン分配情報をキャプチャすることを目的としており、ポリシー最適化における報酬信号の拡張に寄与する。
探索を促進するためにポリシーを明示的に最適化するMaxEnt RLのエントロピー正則化と比較すると、CDRLの正則化は、新しい報酬信号によって導かれるポリシーを暗黙的に最適化し、ターゲットの戻り分布の不確実性と整合し、不確実性を認識した探索効果をもたらす。
最後に、分散RLにおけるこの不確実性を考慮した正則化の重要性を古典的RLに対する経験的利益について検証した。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - How Does Value Distribution in Distributional Reinforcement Learning
Help Optimization? [4.695760312524447]
分布強化学習(RL)におけるベルマン力学から確率分布の集合を学習する問題を考える。
優れた性能を得ることに成功したにもかかわらず、分布RLの値分布がどのように機能するかはまだよく分かっていない。
論文 参考訳(メタデータ) (2022-09-29T02:18:31Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。