論文の概要: Distributional Reinforcement Learning with Regularized Wasserstein Loss
- arxiv url: http://arxiv.org/abs/2202.00769v5
- Date: Mon, 14 Oct 2024 21:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:33.183655
- Title: Distributional Reinforcement Learning with Regularized Wasserstein Loss
- Title(参考訳): 正規化ワッサースタイン損失を用いた分散強化学習
- Authors: Ke Sun, Yingnan Zhao, Wulong Liu, Bei Jiang, Linglong Kong,
- Abstract要約: 本稿では,スキンホルン分布RL(SinkhornDRL)を提案する。スキンホルン分散(Sinkhorn divergence,正規化ワッサースタイン損失)を利用して,電流とベルマン帰還分布の差を最小限に抑える。
経験的に、SinkhornDRLはAtariゲームスイートの既存のアルゴリズムより一貫して優れており、特に多次元報酬設定において際立っている。
- 参考スコア(独自算出の注目度): 16.042828467744197
- License:
- Abstract: The empirical success of distributional reinforcement learning (RL) highly relies on the choice of distribution divergence equipped with an appropriate distribution representation. In this paper, we propose \textit{Sinkhorn distributional RL (SinkhornDRL)}, which leverages Sinkhorn divergence, a regularized Wasserstein loss, to minimize the difference between current and target Bellman return distributions. Theoretically, we prove the contraction properties of SinkhornDRL, aligning with the interpolation nature of Sinkhorn divergence between Wasserstein distance and Maximum Mean Discrepancy (MMD). The introduced SinkhornDRL enriches the family of distributional RL algorithms, contributing to interpreting the algorithm behaviors compared with existing approaches by our investigation into their relationships. Empirically, we show that SinkhornDRL consistently outperforms or matches existing algorithms on the Atari games suite and particularly stands out in the multi-dimensional reward setting. \thanks{Code is available in \url{https://github.com/datake/SinkhornDistRL}.}.
- Abstract(参考訳): 分散強化学習(RL)の実証的成功は、適切な分布表現を備えた分布分散の選択に大きく依存する。
本稿では, 正規化ワッサースタイン損失であるシンクホーンの発散を利用して, 電流と目標ベルマン帰還分布の差を最小限に抑えることを目的とした, シンクホーン分布RL(シンクホーンDRL)を提案する。
理論的には、シンクホルンDRLの収縮特性をワッサーシュタイン距離と最大平均離散性(MMD)の間のシンクホルン発散の補間特性と整合して証明する。
導入したシンクホーンDRLは、分布RLアルゴリズムの族を豊かにし、アルゴリズムの挙動を既存の手法と比較し、それらの関係性の調査に寄与する。
経験的に、SinkhornDRLはAtariゲームスイートの既存のアルゴリズムより一貫して優れており、特に多次元報酬設定において際立っている。
\thanks{Code は \url{https://github.com/datake/SinkhornDistRL} で入手できる。
と。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Distributional Reinforcement Learning with Unconstrained Monotonic
Neural Networks [7.907645828535088]
本稿では,ランダムリターン分布の異なる表現を学習するための方法論を提案する。
制約のない単調深Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-06T20:03:50Z) - Forward and inverse reinforcement learning sharing network weights and
hyperparameters [3.705785916791345]
ERILは、エントロピー規則化マルコフ決定プロセスの枠組みの下で、前方および逆強化学習(RL)を組み合わせる。
前部RLステップは、逆RLステップによって推定される逆KLを最小化する。
逆KL分岐の最小化は最適ポリシーの発見と等価であることを示す。
論文 参考訳(メタデータ) (2020-08-17T13:12:44Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。