論文の概要: Towards Understanding Distributional Reinforcement Learning:
Regularization, Optimization, Acceleration and Sinkhorn Algorithm
- arxiv url: http://arxiv.org/abs/2110.03155v1
- Date: Thu, 7 Oct 2021 03:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-09 06:48:32.236236
- Title: Towards Understanding Distributional Reinforcement Learning:
Regularization, Optimization, Acceleration and Sinkhorn Algorithm
- Title(参考訳): 分布強化学習の理解に向けて:正則化、最適化、加速、シンクホーンアルゴリズム
- Authors: Ke Sun, Yingnan Zhao, Yi Liu, Enze Shi, Yafei Wang, Aref Sadeghi,
Xiaodong Yan, Bei Jiang, Linglong Kong
- Abstract要約: 予測に基づくRLに対する分布RLの利点について検討する。
真の目標分布に対する適切な近似が収束を加速できることを示す。
We propose a class of textitSinkhorn distributional RL algorithm that interpolates between the Wasserstein distance and maximum mean discrepancy (MMD)。
- 参考スコア(独自算出の注目度): 5.467638153835029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributional reinforcement learning~(RL) is a class of state-of-the-art
algorithms that estimate the whole distribution of the total return rather than
only its expectation. Despite the remarkable performance of distributional RL,
a theoretical understanding of its advantages over expectation-based RL remains
elusive. In this paper, we interpret distributional RL as entropy-regularized
maximum likelihood estimation in the \textit{neural Z-fitted iteration}
framework, and establish the connection of the resulting risk-aware
regularization with maximum entropy RL. In addition, We shed light on the
stability-promoting distributional loss with desirable smoothness properties in
distributional RL, which can yield stable optimization and guaranteed
generalization. We also analyze the acceleration behavior while optimizing
distributional RL algorithms and show that an appropriate approximation to the
true target distribution can speed up the convergence. From the perspective of
representation, we find that distributional RL encourages state representation
from the same action class classified by the policy in tighter clusters.
Finally, we propose a class of \textit{Sinkhorn distributional RL} algorithm
that interpolates between the Wasserstein distance and maximum mean
discrepancy~(MMD). Experiments on a suite of Atari games reveal the competitive
performance of our algorithm relative to existing state-of-the-art
distributional RL algorithms.
- Abstract(参考訳): distributional reinforcement learning~(rl)は、期待値だけでなく総リターンの分布全体を推定する最先端アルゴリズムのクラスである。
分布RLの顕著な性能にもかかわらず、予想に基づくRLに対するその利点に関する理論的理解はいまだ解明されていない。
本稿では,分布 RL を \textit{neural Z-fitted iteration} フレームワークにおけるエントロピー正規化最大推定と解釈し,最大エントロピー RL によるリスク認識正規化の接続を確立する。
さらに, 安定な最適化と一般化を保証できる分布RLにおいて, 所望の滑らか性を有する安定促進型分布損失に光を当てた。
また、分布RLアルゴリズムを最適化しながら加速挙動を解析し、真の目標分布に対する適切な近似が収束を早めることを示す。
表現の観点から、分布RLは、より厳密なクラスタのポリシーによって分類された同じアクションクラスから状態表現を促進する。
最後に、ワッサーシュタイン距離と最大平均誤差〜(MMD)を補間する、textit{Sinkhorn distributional RL} アルゴリズムのクラスを提案する。
atariゲーム群における実験により,既存の分散rlアルゴリズムと比較して,アルゴリズムの競合性能が明らかとなった。
関連論文リスト
- Action Gaps and Advantages in Continuous-Time Distributional Reinforcement Learning [30.64409258999151]
行動条件付き回帰分布は、決定頻度が増加するにつれて、基本方針の戻り分布に崩壊することを示す。
また、優位性の確率的一般化として優越性を導入する。
オプショントレーディング領域におけるシミュレーションにより、優良性分布の適切なモデリングにより、高い決定周波数での制御性能が向上することが検証された。
論文 参考訳(メタデータ) (2024-10-14T19:18:38Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - How Does Return Distribution in Distributional Reinforcement Learning Help Optimization? [10.149055921090572]
ニューラルネットワークZ-Iteration(Neural FZI)フレームワークにおける分布RLの最適化の利点について検討する。
その結果, 分布RLは良好な滑らかさ特性を有し, 安定な勾配を享受できることが示唆された。
本研究は,分布RLアルゴリズムの帰属分布が最適化にどう役立つかを明らかにする。
論文 参考訳(メタデータ) (2022-09-29T02:18:31Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。