論文の概要: Distributional Reinforcement Learning via Sinkhorn Iterations
- arxiv url: http://arxiv.org/abs/2202.00769v1
- Date: Tue, 1 Feb 2022 21:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 13:48:16.299366
- Title: Distributional Reinforcement Learning via Sinkhorn Iterations
- Title(参考訳): シンクホーン反復による分布強化学習
- Authors: Ke Sun, Yingnan Zhao, Yi Liu, Bei Jiang, Linglong Kong
- Abstract要約: 分布RLの実証的な成功には,各分布の表現方法と分布の分散の選択が重要である。
そこで本研究では,回帰分布から有限個の統計量,すなわち決定論的サンプルを学習するtextitSinkhorn分布RLアルゴリズムを提案する。
アタリゲームの一組の実験では、既存の最先端アルゴリズムとは対照的にシンクホーン分布RLアルゴリズムの競合性能が示された。
- 参考スコア(独自算出の注目度): 5.905065465799836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributional reinforcement learning~(RL) is a class of state-of-the-art
algorithms that estimate the whole distribution of the total return rather than
only its expectation. The representation manner of each return distribution and
the choice of distribution divergence are pivotal for the empirical success of
distributional RL. In this paper, we propose a new class of \textit{Sinkhorn
distributional RL} algorithm that learns a finite set of statistics, i.e.,
deterministic samples, from each return distribution and then leverages
Sinkhorn iterations to evaluate the Sinkhorn distance between the current and
target Bellmen distributions. Remarkably, as Sinkhorn divergence interpolates
between the Wasserstein distance and Maximum Mean Discrepancy~(MMD). This
allows our proposed Sinkhorn distributional RL algorithms to find a sweet spot
leveraging the geometry of optimal transport-based distance, and the unbiased
gradient estimates of MMD. Finally, experiments on a suite of Atari games
reveal the competitive performance of Sinkhorn distributional RL algorithm as
opposed to existing state-of-the-art algorithms.
- Abstract(参考訳): distributional reinforcement learning~(rl)は、期待値だけでなく総リターンの分布全体を推定する最先端アルゴリズムのクラスである。
分布RLの実証的な成功には,各分布の表現方法と分布の分散の選択が重要である。
本稿では,各帰納分布から有限個の統計値集合,すなわち決定論的サンプルを学習し,その帰納分布からシンクホーン反復を利用して現在のベルマン分布と対象ベルマン分布との間のシンクホーン距離を評価する,新しいクラスである \textit{sinkhorn distributional rl} を提案する。
注目すべきことに、シンクホーンの発散はワッサーシュタイン距離と最大平均離散度~(MMD)の間に補間する。
これにより,提案するシンクホーン分布rlアルゴリズムは,最適移動距離の幾何とmmdの偏りのない勾配推定を生かしたスイートスポットを見つけることができる。
最後に、アタリゲームの一組の実験により、既存の最先端アルゴリズムとは対照的にシンクホーン分布RLアルゴリズムの競合性能が示された。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Distributional Reinforcement Learning with Unconstrained Monotonic
Neural Networks [7.907645828535088]
本稿では,ランダムリターン分布の異なる表現を学習するための方法論を提案する。
制約のない単調深Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-06T20:03:50Z) - Forward and inverse reinforcement learning sharing network weights and
hyperparameters [3.705785916791345]
ERILは、エントロピー規則化マルコフ決定プロセスの枠組みの下で、前方および逆強化学習(RL)を組み合わせる。
前部RLステップは、逆RLステップによって推定される逆KLを最小化する。
逆KL分岐の最小化は最適ポリシーの発見と等価であることを示す。
論文 参考訳(メタデータ) (2020-08-17T13:12:44Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。