論文の概要: Distributional Reinforcement Learning by Sinkhorn Divergence
- arxiv url: http://arxiv.org/abs/2202.00769v4
- Date: Fri, 2 Feb 2024 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 21:01:51.963740
- Title: Distributional Reinforcement Learning by Sinkhorn Divergence
- Title(参考訳): Sinkhorn Divergenceによる分散強化学習
- Authors: Ke Sun, Yingnan Zhao, Wulong Liu, Bei Jiang, Linglong Kong
- Abstract要約: 本研究では,リターン分布から非制限統計を学習するtextitSinkhorn distributional RL(SinkhornDRL)を提案する。
SinkhornDRLは、Atariゲームスイートの既存のアルゴリズムと一貫して、あるいは同等であることを示す。
- 参考スコア(独自算出の注目度): 17.21148361415648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The empirical success of distributional reinforcement learning~(RL) highly
depends on the distribution representation and the choice of distribution
divergence. In this paper, we propose \textit{Sinkhorn distributional
RL~(SinkhornDRL)} that learns unrestricted statistics from return distributions
and leverages Sinkhorn divergence to minimize the difference between current
and target Bellman return distributions. Theoretically, we prove the
contraction properties of SinkhornDRL, consistent with the interpolation nature
of Sinkhorn divergence between Wasserstein distance and Maximum Mean
Discrepancy~(MMD). We also establish the equivalence between Sinkhorn
divergence and a regularized MMD with a regularized Moment Matching behavior,
contributing to explaining the superiority of SinkhornDRL. Empirically, we show
that SinkhornDRL is consistently better or comparable to existing algorithms on
the Atari games suite.
- Abstract(参考訳): 分布強化学習の実証的成功〜(RL)は分布表現と分布分岐の選択に大きく依存する。
本稿では、戻り分布から制限のない統計を学習し、シンクホーンの発散を利用して、現在のベルマン戻り分布とターゲットベルマン戻り分布の差を最小化する「シンクホーンDRL」を提案する。
理論的には、シンクホルンDRLの収縮特性は、ワッサーシュタイン距離と最大平均離散値(MMD)の間のシンクホルン発散の補間性質と一致する。
また, Sinkhorn divergence と正規化MDD との同値性を確立し, SinkhornDRL の優越性を説明するのに寄与する。
経験的に、SinkhornDRLは、Atariゲームスイートの既存のアルゴリズムと一貫して、あるいは同等であることを示す。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Distributional Reinforcement Learning with Unconstrained Monotonic
Neural Networks [7.907645828535088]
本稿では,ランダムリターン分布の異なる表現を学習するための方法論を提案する。
制約のない単調深Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-06T20:03:50Z) - Forward and inverse reinforcement learning sharing network weights and
hyperparameters [3.705785916791345]
ERILは、エントロピー規則化マルコフ決定プロセスの枠組みの下で、前方および逆強化学習(RL)を組み合わせる。
前部RLステップは、逆RLステップによって推定される逆KLを最小化する。
逆KL分岐の最小化は最適ポリシーの発見と等価であることを示す。
論文 参考訳(メタデータ) (2020-08-17T13:12:44Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。