論文の概要: Convergence of Q-value in case of Gaussian rewards
- arxiv url: http://arxiv.org/abs/2003.03526v1
- Date: Sat, 7 Mar 2020 07:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:31:43.990552
- Title: Convergence of Q-value in case of Gaussian rewards
- Title(参考訳): ガウス報酬におけるQ値の収束性
- Authors: Konatsu Miyamoto, Masaya Suzuki, Yuma Kigami, Kodai Satake
- Abstract要約: ガウス分布のような非有界報酬に Q 関数を収束する。
ボーナスとして、分散強化学習のためのポリシー勾配定理の証明も掲載する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, as a study of reinforcement learning, we converge the Q
function to unbounded rewards such as Gaussian distribution. From the central
limit theorem, in some real-world applications it is natural to assume that
rewards follow a Gaussian distribution , but existing proofs cannot guarantee
convergence of the Q-function. Furthermore, in the distribution-type
reinforcement learning and Bayesian reinforcement learning that have become
popular in recent years, it is better to allow the reward to have a Gaussian
distribution. Therefore, in this paper, we prove the convergence of the
Q-function under the condition of $E[r(s,a)^2]<\infty$, which is much more
relaxed than the existing research. Finally, as a bonus, a proof of the policy
gradient theorem for distributed reinforcement learning is also posted.
- Abstract(参考訳): 本稿では,強化学習の研究として,q関数をガウス分布などの非有界報酬に収束させる。
中心極限定理から、いくつかの実世界の応用において、報酬がガウス分布に従うと仮定することは自然であるが、既存の証明はQ-函数の収束を保証できない。
また,近年普及している分布型強化学習やベイズ型強化学習においても,ガウス分布を付与することが望ましい。
したがって、本稿では、既存の研究よりもはるかにリラックスした$E[r(s,a)^2]<\infty$の条件下でのQ-函数の収束を証明している。
最後に、ボーナスとして、分散強化学習のためのポリシー勾配定理の証明も掲載する。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Generating random Gaussian states [0.4604003661048266]
RQCMの固有値は、多数のモードの極限においてシフト半円分布に収束することを示す。
RQCMのシンプレクティック固有値は、自由確率を用いて特徴づけられる確率分布に収束することを示す。
論文 参考訳(メタデータ) (2024-01-24T13:06:57Z) - Learn Quasi-stationary Distributions of Finite State Markov Chain [2.780408966503282]
準定常分布の表現を計算するための強化学習(RL)手法を提案する。
候補分布と真の目標分布によって誘導される2つのマルコフ経路分布のKL偏差を最小化する。
対応する政策勾配定理を導出し,最適な解法と値関数を学習するためのアクター・クリティカルなアルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-11-19T02:56:34Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Dissipative evolution of quantum Gaussian states [68.8204255655161]
我々は、単項リンドブラッド作用素に基づく散逸時間進化の新しいモデルを得る。
以下に示すように、考察された進化はランダム散乱の記述や散逸器工学の道具として有用である。
論文 参考訳(メタデータ) (2021-05-26T16:03:34Z) - Kullback-Leibler divergence between quantum distributions, and its
upper-bound [1.2183405753834562]
この研究は、量子分布(QD)と呼ばれる確率分布のクラスに対して、KL(Kullback-Leibler)の発散が到達できる上限値を示す。
ここでは、エントロピーの発散に対する上界の取り出しは、比較分布が同じ量子値上の量子分布であるという条件の下で可能であることが示される。
論文 参考訳(メタデータ) (2020-08-13T14:42:13Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。