論文の概要: Distributional Reinforcement Learning via Sinkhorn Iterations
- arxiv url: http://arxiv.org/abs/2202.00769v1
- Date: Tue, 1 Feb 2022 21:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 13:48:16.299366
- Title: Distributional Reinforcement Learning via Sinkhorn Iterations
- Title(参考訳): シンクホーン反復による分布強化学習
- Authors: Ke Sun, Yingnan Zhao, Yi Liu, Bei Jiang, Linglong Kong
- Abstract要約: 分布RLの実証的な成功には,各分布の表現方法と分布の分散の選択が重要である。
そこで本研究では,回帰分布から有限個の統計量,すなわち決定論的サンプルを学習するtextitSinkhorn分布RLアルゴリズムを提案する。
アタリゲームの一組の実験では、既存の最先端アルゴリズムとは対照的にシンクホーン分布RLアルゴリズムの競合性能が示された。
- 参考スコア(独自算出の注目度): 5.905065465799836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributional reinforcement learning~(RL) is a class of state-of-the-art
algorithms that estimate the whole distribution of the total return rather than
only its expectation. The representation manner of each return distribution and
the choice of distribution divergence are pivotal for the empirical success of
distributional RL. In this paper, we propose a new class of \textit{Sinkhorn
distributional RL} algorithm that learns a finite set of statistics, i.e.,
deterministic samples, from each return distribution and then leverages
Sinkhorn iterations to evaluate the Sinkhorn distance between the current and
target Bellmen distributions. Remarkably, as Sinkhorn divergence interpolates
between the Wasserstein distance and Maximum Mean Discrepancy~(MMD). This
allows our proposed Sinkhorn distributional RL algorithms to find a sweet spot
leveraging the geometry of optimal transport-based distance, and the unbiased
gradient estimates of MMD. Finally, experiments on a suite of Atari games
reveal the competitive performance of Sinkhorn distributional RL algorithm as
opposed to existing state-of-the-art algorithms.
- Abstract(参考訳): distributional reinforcement learning~(rl)は、期待値だけでなく総リターンの分布全体を推定する最先端アルゴリズムのクラスである。
分布RLの実証的な成功には,各分布の表現方法と分布の分散の選択が重要である。
本稿では,各帰納分布から有限個の統計値集合,すなわち決定論的サンプルを学習し,その帰納分布からシンクホーン反復を利用して現在のベルマン分布と対象ベルマン分布との間のシンクホーン距離を評価する,新しいクラスである \textit{sinkhorn distributional rl} を提案する。
注目すべきことに、シンクホーンの発散はワッサーシュタイン距離と最大平均離散度~(MMD)の間に補間する。
これにより,提案するシンクホーン分布rlアルゴリズムは,最適移動距離の幾何とmmdの偏りのない勾配推定を生かしたスイートスポットを見つけることができる。
最後に、アタリゲームの一組の実験により、既存の最先端アルゴリズムとは対照的にシンクホーン分布RLアルゴリズムの競合性能が示された。
関連論文リスト
- Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - Covariate shift in nonparametric regression with Markovian design [0.0]
ナダラヤ・ワトソン核推定器の滑らかさリスクに対する収束速度は、ソースとターゲットマルコフ連鎖に関連する不変分布の類似性によって決定されることを示す。
我々は、Kpotufe と Martinet からの分布指数の概念を、一様エルゴードなマルコフ鎖の核移動指数に拡張する。
論文 参考訳(メタデータ) (2023-07-17T14:24:27Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Mirror Descent with Relative Smoothness in Measure Spaces, with
application to Sinkhorn and EM [11.007661197604065]
本稿では,無限次元環境下でのミラー降下アルゴリズムの収束性について検討する。
結果が結合分布とクルバック-リーブラー分岐に適用され、シンクホーンの最適輸送に対する原始的な反復がミラー降下に対応することを示す。
論文 参考訳(メタデータ) (2022-06-17T16:19:47Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Distributional Reinforcement Learning with Unconstrained Monotonic
Neural Networks [7.907645828535088]
本稿では,ランダムリターン分布の異なる表現を学習するための方法論を提案する。
制約のない単調深Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-06T20:03:50Z) - Forward and inverse reinforcement learning sharing network weights and
hyperparameters [3.705785916791345]
ERILは、エントロピー規則化マルコフ決定プロセスの枠組みの下で、前方および逆強化学習(RL)を組み合わせる。
前部RLステップは、逆RLステップによって推定される逆KLを最小化する。
逆KL分岐の最小化は最適ポリシーの発見と等価であることを示す。
論文 参考訳(メタデータ) (2020-08-17T13:12:44Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Sinkhorn Barycenter via Functional Gradient Descent [125.89871274202439]
我々はシンクホーン発散の下で確率分布の集合のバリ中心を計算することの問題を考察する。
この問題は最近、グラフィックス、学習、ビジョンなど、さまざまな領域にまたがるアプリケーションを見つけました。
Sinkhorn Descent という関数勾配降下法を開発した。
論文 参考訳(メタデータ) (2020-07-20T20:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。