論文の概要: How Does Value Distribution in Distributional Reinforcement Learning
Help Optimization?
- arxiv url: http://arxiv.org/abs/2209.14513v1
- Date: Thu, 29 Sep 2022 02:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:40:09.384027
- Title: How Does Value Distribution in Distributional Reinforcement Learning
Help Optimization?
- Title(参考訳): 分散強化学習における価値分布は最適化にどのように役立つか?
- Authors: Ke Sun, Bei Jiang, Linglong Kong
- Abstract要約: 分布強化学習(RL)におけるベルマン力学から確率分布の集合を学習する問題を考える。
優れた性能を得ることに成功したにもかかわらず、分布RLの値分布がどのように機能するかはまだよく分かっていない。
- 参考スコア(独自算出の注目度): 4.695760312524447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning a set of probability distributions from
the Bellman dynamics in distributional reinforcement learning~(RL) that learns
the whole return distribution compared with only its expectation in classical
RL. Despite its success to obtain superior performance, we still have a poor
understanding of how the value distribution in distributional RL works. In this
study, we analyze the optimization benefits of distributional RL by leverage of
additional value distribution information over classical RL in the Neural
Fitted Z-Iteration~(Neural FZI) framework. To begin with, we demonstrate that
the distribution loss of distributional RL has desirable smoothness
characteristics and hence enjoys stable gradients, which is in line with its
tendency to promote optimization stability. Furthermore, the acceleration
effect of distributional RL is revealed by decomposing the return distribution.
It turns out that distributional RL can perform favorably if the value
distribution approximation is appropriate, measured by the variance of gradient
estimates in each environment for any specific distributional RL algorithm.
Rigorous experiments validate the stable optimization behaviors of
distributional RL, contributing to its acceleration effects compared to
classical RL. The findings of our research illuminate how the value
distribution in distributional RL algorithms helps the optimization.
- Abstract(参考訳): 分布強化学習(rl)におけるベルマン力学から確率分布のセットを学習する問題を考える。
優れた性能を得ることに成功したにもかかわらず、分布RLの値分布がどのように機能するかはまだよく分かっていない。
本研究では、ニューラルネットワークZ-Iteration~(Neural FZI)フレームワークにおける古典的RL上の付加価値分布情報を活用することにより、分布RLの最適化の利点を分析する。
まず, 分布RLの分布損失は, 良好な滑らかさ特性を持ち, 最適化安定性を促進する傾向にある安定勾配を享受できることを実証する。
さらに、戻り分布を分解することにより、分布RLの加速効果を明らかにする。
分布 rl は,特定の分布 rl アルゴリズムに対して,各環境における勾配推定のばらつきから求めた値分布近似が適切であれば好適に動作できることがわかった。
厳密な実験は分布RLの安定な最適化挙動を検証し、古典的なRLと比較して加速効果に寄与する。
本研究の成果は,分散RLアルゴリズムの値分布が最適化にどのように役立つかを示す。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - The Benefits of Being Categorical Distributional: Uncertainty-aware
Regularized Exploration in Reinforcement Learning [18.525166928667876]
分布RLのポテンシャル優位性は、回帰密度関数分解法を適用して導出した分布整合正則化に帰着する。
分布RLコンテキストにおけるこの探索されていない正規化は、期待によらず、追加の戻り分布情報を取得することを目的としている。
実験は、古典的RLに対する経験的利益に対する分布RLにおけるこの不確実性を考慮した正規化の重要性を裏付ける。
論文 参考訳(メタデータ) (2021-10-07T03:14:46Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。