論文の概要: The Benefits of Being Categorical Distributional: Uncertainty-aware Regularized Exploration in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.03155v6
- Date: Sat, 01 Feb 2025 16:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:04:34.513919
- Title: The Benefits of Being Categorical Distributional: Uncertainty-aware Regularized Exploration in Reinforcement Learning
- Title(参考訳): カテゴリー分布の利点:強化学習における不確かさを意識した正規化探索
- Authors: Ke Sun, Yingnan Zhao, Enze Shi, Yafei Wang, Xiaodong Yan, Bei Jiang, Linglong Kong,
- Abstract要約: 分布RLの潜在的優位性は、導出分布整合エントロピー正則化に起因すると考えられる。
本研究は,RLにおける分布学習の導入による本質的なメリットを説明するために,本研究から新たな視点を提供する。
- 参考スコア(独自算出の注目度): 17.64056793687686
- License:
- Abstract: The remarkable empirical performance of distributional reinforcement learning (RL) has garnered increasing attention to understanding its theoretical advantages over classical RL. By decomposing the categorical distributional loss commonly employed in distributional RL, we find that the potential superiority of distributional RL can be attributed to a derived distribution-matching entropy regularization. This less-studied entropy regularization aims to capture additional knowledge of return distribution beyond only its expectation, contributing to an augmented reward signal in policy optimization. In contrast to the vanilla entropy regularization in MaxEnt RL, which explicitly encourages exploration by promoting diverse actions, the novel entropy regularization derived from categorical distributional loss implicitly updates policies to align the learned policy with (estimated) environmental uncertainty. Finally, extensive experiments substantiate the significance of this uncertainty-aware regularization from distributional RL on the empirical benefits over classical RL. Our study offers a new perspective from the exploration to explain the intrinsic benefits of adopting distributional learning in RL.
- Abstract(参考訳): 分散強化学習(RL)の顕著な経験的性能は、古典的RLに対する理論上の優位性を理解するために注目されている。
分布RLでよく用いられるカテゴリー分布損失を分解することにより、分布RLの潜在的優越性は、導出分布整合エントロピー正則化に起因できることが分かる。
この研究の少ないエントロピー正規化は、期待以上の戻り分布のさらなる知識を捉えることを目的としており、政策最適化における報酬信号の拡張に寄与している。
多様な行動を促進することで探索を明示的に奨励するMaxEnt RLのバニラエントロピー正規化とは対照的に、カテゴリー的分布損失に由来する新しいエントロピー正規化は、学習されたポリシーを(推定された)環境の不確実性に合わせるためにポリシーを暗黙的に更新する。
最後に、この不確実性を考慮した分布RLからの正則化が古典的RLに対する経験的利益に与える影響を検証した。
本研究は,RLにおける分布学習の導入による本質的なメリットを説明するために,本研究から新たな視点を提供する。
関連論文リスト
- Action Gaps and Advantages in Continuous-Time Distributional Reinforcement Learning [30.64409258999151]
行動条件付き回帰分布は、決定頻度が増加するにつれて、基本方針の戻り分布に崩壊することを示す。
また、優位性の確率的一般化として優越性を導入する。
オプショントレーディング領域におけるシミュレーションにより、優良性分布の適切なモデリングにより、高い決定周波数での制御性能が向上することが検証された。
論文 参考訳(メタデータ) (2024-10-14T19:18:38Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。
提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - How Does Return Distribution in Distributional Reinforcement Learning Help Optimization? [10.149055921090572]
ニューラルネットワークZ-Iteration(Neural FZI)フレームワークにおける分布RLの最適化の利点について検討する。
その結果, 分布RLは良好な滑らかさ特性を有し, 安定な勾配を享受できることが示唆された。
本研究は,分布RLアルゴリズムの帰属分布が最適化にどう役立つかを明らかにする。
論文 参考訳(メタデータ) (2022-09-29T02:18:31Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。