論文の概要: Exploring Variational Deep Q Networks
- arxiv url: http://arxiv.org/abs/2008.01641v1
- Date: Tue, 4 Aug 2020 15:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:31:07.900476
- Title: Exploring Variational Deep Q Networks
- Title(参考訳): 変動型ディープqネットワークの検討
- Authors: A. H. Bell-Thomas
- Abstract要約: 変分深度Qネットワークは、複雑な学習環境における探索の効率を最大化する新しいアプローチである。
Double Variational Deep Q Networkは、推論ベースの学習の安定性と堅牢性を向上させる改善を取り入れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study provides both analysis and a refined, research-ready
implementation of Tang and Kucukelbir's Variational Deep Q Network, a novel
approach to maximising the efficiency of exploration in complex learning
environments using Variational Bayesian Inference. Alongside reference
implementations of both Traditional and Double Deep Q Networks, a small novel
contribution is presented - the Double Variational Deep Q Network, which
incorporates improvements to increase the stability and robustness of
inference-based learning. Finally, an evaluation and discussion of the
effectiveness of these approaches is discussed in the wider context of Bayesian
Deep Learning.
- Abstract(参考訳): 本研究は,変分ベイズ推論を用いた複雑な学習環境における探索の効率を最大化するための新しいアプローチであるTangとKucukelbir's Variational Deep Q Networkの分析および研究対応実装を提供する。
従来のDouble Deep Q NetworksとDouble Deep Q Networksの両方のリファレンス実装に加えて、推論ベースの学習の安定性と堅牢性を向上させるための改善を含むDouble Variational Deep Q Networkという、小さな新しいコントリビューションが提示されている。
最後に,ベイズ深層学習の広い文脈において,これらのアプローチの有効性の評価と議論を行った。
関連論文リスト
- Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - Multiobjective Evolutionary Pruning of Deep Neural Networks with
Transfer Learning for improving their Performance and Robustness [15.29595828816055]
本研究は,多目的進化解析アルゴリズムMO-EvoPruneDeepTLを提案する。
我々は、トランスファーラーニングを使用して、遺伝的アルゴリズムによって進化したスパース層に置き換えることで、ディープニューラルネットワークの最後の層を適応します。
実験の結果,提案手法は全ての目的に対して有望な結果が得られ,直接的な関係が示された。
論文 参考訳(メタデータ) (2023-02-20T19:33:38Z) - Bayesian Learning for Neural Networks: an algorithmic survey [95.42181254494287]
この自己完結型調査は、ベイズ学習ニューラルネットワークの原理とアルゴリズムを読者に紹介する。
アクセシブルで実践的な視点からこのトピックを紹介します。
論文 参考訳(メタデータ) (2022-11-21T21:36:58Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Analytically Tractable Bayesian Deep Q-Learning [0.0]
我々は時間差Q-ラーニングフレームワークを適応させ、抽出可能な近似ガウス推論(TAGI)と互換性を持たせる。
我々は,TAGIがバックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
論文 参考訳(メタデータ) (2021-06-21T13:11:52Z) - Efficient Variational Inference for Sparse Deep Learning with
Theoretical Guarantee [20.294908538266867]
スパースディープラーニングは、ディープニューラルネットワークによる巨大なストレージ消費の課題に対処することを目的としている。
本稿では,スパイク・アンド・スラブ前処理による完全ベイズ処理により,疎いディープニューラルネットワークを訓練する。
我々はベルヌーイ分布の連続緩和による計算効率の良い変分推論のセットを開発する。
論文 参考訳(メタデータ) (2020-11-15T03:27:54Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Recursive Multi-model Complementary Deep Fusion forRobust Salient Object
Detection via Parallel Sub Networks [62.26677215668959]
完全畳み込みネットワークは、正体検出(SOD)分野において優れた性能を示している。
本稿では,全く異なるネットワークアーキテクチャを持つ並列サブネットワークからなる,より広いネットワークアーキテクチャを提案する。
いくつかの有名なベンチマークの実験では、提案されたより広範なフレームワークの優れた性能、優れた一般化、強力な学習能力が明らかに示されている。
論文 参考訳(メタデータ) (2020-08-07T10:39:11Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - On the Reduction of Variance and Overestimation of Deep Q-Learning [0.0]
本稿では,分散度と過大評価量を削減する方法として,深層Q-LearningアルゴリズムにおけるDropout手法を提案する。
また、ベンチマーク環境で実施した実験により、安定性の向上とモデル性能のばらつきと過大評価の両面において、我々の方法論の有効性を実証した。
論文 参考訳(メタデータ) (2019-10-14T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。