論文の概要: Distributional Reinforcement Learning with Unconstrained Monotonic
Neural Networks
- arxiv url: http://arxiv.org/abs/2106.03228v1
- Date: Sun, 6 Jun 2021 20:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:39:15.649839
- Title: Distributional Reinforcement Learning with Unconstrained Monotonic
Neural Networks
- Title(参考訳): 非拘束単調ニューラルネットワークによる分散強化学習
- Authors: Thibaut Th\'eate, Antoine Wehenkel, Adrien Bolland, Gilles Louppe and
Damien Ernst
- Abstract要約: 本稿では,ランダムリターン分布の異なる表現を学習するための方法論を提案する。
制約のない単調深Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.907645828535088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The distributional reinforcement learning (RL) approach advocates for
representing the complete probability distribution of the random return instead
of only modelling its expectation. A distributional RL algorithm may be
characterised by two main components, namely the representation and
parameterisation of the distribution and the probability metric defining the
loss. This research considers the unconstrained monotonic neural network (UMNN)
architecture, a universal approximator of continuous monotonic functions which
is particularly well suited for modelling different representations of a
distribution (PDF, CDF, quantile function). This property enables the
decoupling of the effect of the function approximator class from that of the
probability metric. The paper firstly introduces a methodology for learning
different representations of the random return distribution. Secondly, a novel
distributional RL algorithm named unconstrained monotonic deep Q-network
(UMDQN) is presented. Lastly, in light of this new algorithm, an empirical
comparison is performed between three probability quasimetrics, namely the
Kullback-Leibler divergence, Cramer distance and Wasserstein distance. The
results call for a reconsideration of all probability metrics in distributional
RL, which contrasts with the dominance of the Wasserstein distance in recent
publications.
- Abstract(参考訳): 分布強化学習(RL)アプローチは、予測をモデル化するだけでなく、ランダムリターンの完全な確率分布を表現することを提唱している。
分布RLアルゴリズムは、分布の表現とパラメータ化と損失を定義する確率測度という2つの主要成分によって特徴づけられる。
本研究では,連続単調関数の普遍近似であるunconstrained monotonic neural network (umnn)アーキテクチャを考察し,分布の異なる表現(pdf, cdf, quantile function)のモデル化に特に適している。
この性質により、関数近似器のクラスの効果を確率計量のクラスから切り離すことができる。
本稿ではまず,ランダム回帰分布の異なる表現を学習するための方法論を紹介する。
次に、制約のない単調深度Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを示す。
最後に、この新しいアルゴリズムに照らして、kullback-leibler divergence, cramer distance, wasserstein distanceという3つの確率準メトリック間の経験的比較を行う。
この結果は、最近の出版物におけるワッサースタイン距離の支配とは対照的な分布 rl における全ての確率指標の再考を求めるものである。
関連論文リスト
- A Stein Gradient Descent Approach for Doubly Intractable Distributions [5.63014864822787]
そこで本研究では,2重に抽出可能な分布を推定するために,モンテカルロ・スタイン変分勾配勾配(MC-SVGD)法を提案する。
提案手法は,後続分布に匹敵する推論性能を提供しながら,既存のアルゴリズムよりもかなりの計算ゲインを達成する。
論文 参考訳(メタデータ) (2024-10-28T13:42:27Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文 参考訳(メタデータ) (2024-09-07T13:55:45Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Learning Theory of Distribution Regression with Neural Networks [6.961253535504979]
完全連結ニューラルネットワーク(FNN)による近似理論と分布回帰の学習理論を確立する。
古典回帰法とは対照的に、分布回帰の入力変数は確率測度である。
論文 参考訳(メタデータ) (2023-07-07T09:49:11Z) - A probabilistic, data-driven closure model for RANS simulations with aleatoric, model uncertainty [1.8416014644193066]
本稿では,レノルズ平均Navier-Stokes (RANS) シミュレーションのためのデータ駆動閉包モデルを提案する。
パラメトリック閉包が不十分な問題領域内の領域を特定するために,完全ベイズ的定式化と余剰誘導先行法を組み合わせて提案する。
論文 参考訳(メタデータ) (2023-07-05T16:53:31Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。