Fugu-MT 論文翻訳(概要): Distributional Reinforcement Learning by Sinkhorn Divergence

論文の概要: Distributional Reinforcement Learning by Sinkhorn Divergence

arxiv url: http://arxiv.org/abs/2202.00769v4
Date: Fri, 2 Feb 2024 17:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 21:01:51.963740
Title: Distributional Reinforcement Learning by Sinkhorn Divergence
Title（参考訳）: Sinkhorn Divergenceによる分散強化学習
Authors: Ke Sun, Yingnan Zhao, Wulong Liu, Bei Jiang, Linglong Kong
Abstract要約: 本研究では,リターン分布から非制限統計を学習するtextitSinkhorn distributional RL(SinkhornDRL)を提案する。 SinkhornDRLは、Atariゲームスイートの既存のアルゴリズムと一貫して、あるいは同等であることを示す。
参考スコア（独自算出の注目度）: 17.21148361415648
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The empirical success of distributional reinforcement learning~(RL) highly depends on the distribution representation and the choice of distribution divergence. In this paper, we propose \textit{Sinkhorn distributional RL~(SinkhornDRL)} that learns unrestricted statistics from return distributions and leverages Sinkhorn divergence to minimize the difference between current and target Bellman return distributions. Theoretically, we prove the contraction properties of SinkhornDRL, consistent with the interpolation nature of Sinkhorn divergence between Wasserstein distance and Maximum Mean Discrepancy~(MMD). We also establish the equivalence between Sinkhorn divergence and a regularized MMD with a regularized Moment Matching behavior, contributing to explaining the superiority of SinkhornDRL. Empirically, we show that SinkhornDRL is consistently better or comparable to existing algorithms on the Atari games suite.
Abstract（参考訳）: 分布強化学習の実証的成功〜(RL)は分布表現と分布分岐の選択に大きく依存する。本稿では、戻り分布から制限のない統計を学習し、シンクホーンの発散を利用して、現在のベルマン戻り分布とターゲットベルマン戻り分布の差を最小化する「シンクホーンDRL」を提案する。理論的には、シンクホルンDRLの収縮特性は、ワッサーシュタイン距離と最大平均離散値(MMD)の間のシンクホルン発散の補間性質と一致する。また, Sinkhorn divergence と正規化MDD との同値性を確立し, SinkhornDRL の優越性を説明するのに寄与する。経験的に、SinkhornDRLは、Atariゲームスイートの既存のアルゴリズムと一貫して、あるいは同等であることを示す。

関連論文リスト

On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文参考訳（メタデータ） (2025-01-28T00:29:38Z)
Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文参考訳（メタデータ） (2024-09-07T13:55:45Z)
More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文参考訳（メタデータ） (2024-02-11T13:25:53Z)
Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文参考訳（メタデータ） (2023-06-27T08:15:28Z)
One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-27T06:57:00Z)
Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。この分布は有限個の確率変数で近似できることを示す。近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-23T20:27:40Z)
Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。 SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文参考訳（メタデータ） (2021-12-28T15:51:07Z)
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文参考訳（メタデータ） (2021-10-26T11:24:23Z)
Distributional Reinforcement Learning with Unconstrained Monotonic Neural Networks [7.907645828535088]
本稿では,ランダムリターン分布の異なる表現を学習するための方法論を提案する。制約のない単調深Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-06T20:03:50Z)
Forward and inverse reinforcement learning sharing network weights and hyperparameters [3.705785916791345]
ERILは、エントロピー規則化マルコフ決定プロセスの枠組みの下で、前方および逆強化学習(RL)を組み合わせる。前部RLステップは、逆RLステップによって推定される逆KLを最小化する。逆KL分岐の最小化は最適ポリシーの発見と等価であることを示す。
論文参考訳（メタデータ） (2020-08-17T13:12:44Z)
Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文参考訳（メタデータ） (2020-01-20T02:19:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。