論文の概要: Amortized Variational Deep Q Network
- arxiv url: http://arxiv.org/abs/2011.01706v1
- Date: Tue, 3 Nov 2020 13:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 03:41:20.693575
- Title: Amortized Variational Deep Q Network
- Title(参考訳): Amortized Variational Deep Q Network
- Authors: Haotian Zhang, Yuhao Wang, Jianyong Sun, Zongben Xu
- Abstract要約: 本稿では,ディープQネットワークにおける動作値関数の後方分布を近似する補正型変分推論フレームワークを提案する。
このアモータイズされたフレームワークは,既存の最先端手法よりも学習パラメータがかなり少ないことを示す。
- 参考スコア(独自算出の注目度): 28.12600565839504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient exploration is one of the most important issues in deep
reinforcement learning. To address this issue, recent methods consider the
value function parameters as random variables, and resort variational inference
to approximate the posterior of the parameters. In this paper, we propose an
amortized variational inference framework to approximate the posterior
distribution of the action value function in Deep Q Network. We establish the
equivalence between the loss of the new model and the amortized variational
inference loss. We realize the balance of exploration and exploitation by
assuming the posterior as Cauchy and Gaussian, respectively in a two-stage
training process. We show that the amortized framework can results in
significant less learning parameters than existing state-of-the-art method.
Experimental results on classical control tasks in OpenAI Gym and chain Markov
Decision Process tasks show that the proposed method performs significantly
better than state-of-art methods and requires much less training time.
- Abstract(参考訳): 効率的な探索は、深層強化学習において最も重要な問題の1つです。
この問題に対処するために、近年の手法では値関数パラメータをランダム変数とみなし、パラメータの後方を近似するために変分推論を用いる。
本稿では、ディープQネットワークにおける動作値関数の後方分布を近似するアモータイズされた変分推論フレームワークを提案する。
我々は,新しいモデルの損失と不定形変分推論損失との等価性を確立する。
我々は,2段階の訓練プロセスにおいて,後部をコーシー,ガウシアンと仮定することで,探索と搾取のバランスを実現する。
本稿では,amortizedフレームワークは,既存の最先端手法に比べて学習パラメータが大幅に低下することを示す。
OpenAI Gymと連鎖マルコフ決定プロセスにおける古典的制御タスクの実験結果から,提案手法は最先端の手法よりもはるかに優れた性能を示し,訓練時間をはるかに短縮することを示した。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Adaptive Robust Learning using Latent Bernoulli Variables [50.223140145910904]
破損したトレーニングセットから学習するための適応的なアプローチを提案する。
我々は,潜伏したベルヌーイ変数を持つ崩壊した非破壊標本を同定した。
結果の問題は変分推論によって解決される。
論文 参考訳(メタデータ) (2023-12-01T13:50:15Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Variational Laplace Autoencoders [53.08170674326728]
変分オートエンコーダは、遅延変数の後部を近似するために、償却推論モデルを用いる。
完全分解ガウス仮定の限定的後部表現性に対処する新しい手法を提案する。
また、深部生成モデルのトレーニングのための変分ラプラスオートエンコーダ(VLAE)という一般的なフレームワークも提示する。
論文 参考訳(メタデータ) (2022-11-30T18:59:27Z) - Analysis of Catastrophic Forgetting for Random Orthogonal Transformation
Tasks in the Overparameterized Regime [9.184987303791292]
可変MNIST画像分類タスクでは,バニラ勾配降下により訓練された多層パーセプトロンの性能を向上させることができることを示す。
定性的に類似した2タスク線形回帰問題を研究することによって、この効果を理論的に説明する。
モデルが追加の正規化なしで連続的に2つのタスクで訓練された場合、最初のタスクのリスクゲインは小さくなることを示す。
論文 参考訳(メタデータ) (2022-06-01T18:04:33Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。