論文の概要: Distributional Reinforcement Learning via Moment Matching
- arxiv url: http://arxiv.org/abs/2007.12354v3
- Date: Wed, 9 Dec 2020 00:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 05:46:04.985906
- Title: Distributional Reinforcement Learning via Moment Matching
- Title(参考訳): モーメントマッチングによる分布強化学習
- Authors: Thanh Tang Nguyen, Sunil Gupta, Svetha Venkatesh
- Abstract要約: ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 54.16108052278444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning a set of probability distributions from
the empirical Bellman dynamics in distributional reinforcement learning (RL), a
class of state-of-the-art methods that estimate the distribution, as opposed to
only the expectation, of the total return. We formulate a method that learns a
finite set of statistics from each return distribution via neural networks, as
in (Bellemare, Dabney, and Munos 2017; Dabney et al. 2018b). Existing
distributional RL methods however constrain the learned statistics to
\emph{predefined} functional forms of the return distribution which is both
restrictive in representation and difficult in maintaining the predefined
statistics. Instead, we learn \emph{unrestricted} statistics, i.e.,
deterministic (pseudo-)samples, of the return distribution by leveraging a
technique from hypothesis testing known as maximum mean discrepancy (MMD),
which leads to a simpler objective amenable to backpropagation. Our method can
be interpreted as implicitly matching all orders of moments between a return
distribution and its Bellman target. We establish sufficient conditions for the
contraction of the distributional Bellman operator and provide finite-sample
analysis for the deterministic samples in distribution approximation.
Experiments on the suite of Atari games show that our method outperforms the
standard distributional RL baselines and sets a new record in the Atari games
for non-distributed agents.
- Abstract(参考訳): 分布強化学習(RL)における経験的ベルマン力学から確率分布の集合を学習する問題を考える。
ニューラルネットワークを用いて各戻り分布から有限の統計集合を学習する手法を定式化する(Bellemare, Dabney, and Munos 2017; Dabney et al. 2018b)。
しかし、既存の分布RL法では、学習された統計量は、表現に制限があり、事前定義された統計を維持するのが困難である戻り分布の関数形式に制限される。
代わりに、最大平均偏差(mmd)として知られる仮説検定のテクニックを活用し、帰納分布の帰納分布を決定論的 (pseudo-) な統計量、すなわち決定論的 (pseudo-) に学習し、より単純な目標をバックプロパゲーションに導く。
本手法は帰納分布とそのベルマン対象との間のモーメントの全ての順序を暗黙的に一致するものと解釈できる。
分布型ベルマン作用素の収縮に対する十分な条件を確立し、分布近似における決定論的サンプルに対する有限サンプル解析を提供する。
Atariゲームスイートの実験では,本手法は標準分布RLベースラインよりも優れており,非分散エージェントに対するAtariゲームに新たな記録が設定されている。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - DistPred: A Distribution-Free Probabilistic Inference Method for Regression and Forecasting [14.390842560217743]
本稿では、回帰予測タスクのためのDistPredという新しい手法を提案する。
予測分布と対象分布の差分を測定するための適切なスコアリングルールを、微分可能な離散形式に変換する。
これにより、モデルは単一のフォワードパスで多数のサンプルをサンプリングし、応答変数の潜在的分布を推定することができる。
論文 参考訳(メタデータ) (2024-06-17T10:33:00Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T15:35:24Z) - Distributional Off-policy Evaluation with Bellman Residual Minimization [12.343981093497332]
配電型オフ政治評価(OPE)について検討する。
目標は、異なるポリシーによって生成されたオフラインデータを使用して、ターゲットポリシーに対するリターンの分布を学習することである。
我々はEnergy Bellman Residual Minimizer (EBRM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T20:59:29Z) - Dr. FERMI: A Stochastic Distributionally Robust Fair Empirical Risk
Minimization Framework [12.734559823650887]
分散シフトが存在する場合、公正な機械学習モデルはテストデータに対して不公平に振る舞うことがある。
既存のアルゴリズムはデータへの完全なアクセスを必要とし、小さなバッチを使用する場合には使用できない。
本稿では,因果グラフの知識を必要としない収束保証付き分布安定度フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-20T23:25:28Z) - Distribution Shift Inversion for Out-of-Distribution Prediction [57.22301285120695]
本稿では,OoD(Out-of-Distribution)予測のためのポータブル分布シフト変換アルゴリズムを提案する。
提案手法は,OoDアルゴリズムを広範囲に接続した場合に,一般的な性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2023-06-14T08:00:49Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Distributional Reinforcement Learning with Unconstrained Monotonic
Neural Networks [7.907645828535088]
本稿では,ランダムリターン分布の異なる表現を学習するための方法論を提案する。
制約のない単調深Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-06T20:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。