論文の概要: Amortized Variational Deep Q Network
- arxiv url: http://arxiv.org/abs/2011.01706v1
- Date: Tue, 3 Nov 2020 13:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 03:41:20.693575
- Title: Amortized Variational Deep Q Network
- Title(参考訳): Amortized Variational Deep Q Network
- Authors: Haotian Zhang, Yuhao Wang, Jianyong Sun, Zongben Xu
- Abstract要約: 本稿では,ディープQネットワークにおける動作値関数の後方分布を近似する補正型変分推論フレームワークを提案する。
このアモータイズされたフレームワークは,既存の最先端手法よりも学習パラメータがかなり少ないことを示す。
- 参考スコア(独自算出の注目度): 28.12600565839504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient exploration is one of the most important issues in deep
reinforcement learning. To address this issue, recent methods consider the
value function parameters as random variables, and resort variational inference
to approximate the posterior of the parameters. In this paper, we propose an
amortized variational inference framework to approximate the posterior
distribution of the action value function in Deep Q Network. We establish the
equivalence between the loss of the new model and the amortized variational
inference loss. We realize the balance of exploration and exploitation by
assuming the posterior as Cauchy and Gaussian, respectively in a two-stage
training process. We show that the amortized framework can results in
significant less learning parameters than existing state-of-the-art method.
Experimental results on classical control tasks in OpenAI Gym and chain Markov
Decision Process tasks show that the proposed method performs significantly
better than state-of-art methods and requires much less training time.
- Abstract(参考訳): 効率的な探索は、深層強化学習において最も重要な問題の1つです。
この問題に対処するために、近年の手法では値関数パラメータをランダム変数とみなし、パラメータの後方を近似するために変分推論を用いる。
本稿では、ディープQネットワークにおける動作値関数の後方分布を近似するアモータイズされた変分推論フレームワークを提案する。
我々は,新しいモデルの損失と不定形変分推論損失との等価性を確立する。
我々は,2段階の訓練プロセスにおいて,後部をコーシー,ガウシアンと仮定することで,探索と搾取のバランスを実現する。
本稿では,amortizedフレームワークは,既存の最先端手法に比べて学習パラメータが大幅に低下することを示す。
OpenAI Gymと連鎖マルコフ決定プロセスにおける古典的制御タスクの実験結果から,提案手法は最先端の手法よりもはるかに優れた性能を示し,訓練時間をはるかに短縮することを示した。
関連論文リスト
- Calibration-then-Calculation: A Variance Reduced Metric Framework in
Deep Click-Through Rate Prediction Models [17.816365219484638]
トレーニングプロセスを一度だけ実行し、その結果を以前のベンチマークと比較することが一般的になった。
距離分散は、ディープラーニングパイプラインのトレーニングプロセスに固有のランダム性に由来する。
我々は,この問題に対処する新たなメトリクスフレームワークCalibrated Loss Metricを提案する。
論文 参考訳(メタデータ) (2024-01-30T02:38:23Z) - Hessian Aware Low-Rank Weight Perturbation for Continual Learning [15.778043532072907]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - Parallel and Limited Data Voice Conversion Using Stochastic Variational
Deep Kernel Learning [2.5782420501870296]
本稿では,限られたデータを扱う音声変換手法を提案する。
変分深層学習(SVDKL)に基づく。
非滑らかでより複雑な関数を推定することができる。
論文 参考訳(メタデータ) (2023-09-08T16:32:47Z) - Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Variational Laplace Autoencoders [53.08170674326728]
変分オートエンコーダは、遅延変数の後部を近似するために、償却推論モデルを用いる。
完全分解ガウス仮定の限定的後部表現性に対処する新しい手法を提案する。
また、深部生成モデルのトレーニングのための変分ラプラスオートエンコーダ(VLAE)という一般的なフレームワークも提示する。
論文 参考訳(メタデータ) (2022-11-30T18:59:27Z) - Analysis of Catastrophic Forgetting for Random Orthogonal Transformation
Tasks in the Overparameterized Regime [9.184987303791292]
可変MNIST画像分類タスクでは,バニラ勾配降下により訓練された多層パーセプトロンの性能を向上させることができることを示す。
定性的に類似した2タスク線形回帰問題を研究することによって、この効果を理論的に説明する。
モデルが追加の正規化なしで連続的に2つのタスクで訓練された場合、最初のタスクのリスクゲインは小さくなることを示す。
論文 参考訳(メタデータ) (2022-06-01T18:04:33Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。