論文の概要: Improving the Diversity of Bootstrapped DQN via Noisy Priors
- arxiv url: http://arxiv.org/abs/2203.01004v1
- Date: Wed, 2 Mar 2022 10:28:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 13:48:46.757153
- Title: Improving the Diversity of Bootstrapped DQN via Noisy Priors
- Title(参考訳): 雑音によるブートストラップDQNの多様性向上
- Authors: Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad
- Abstract要約: Bootstrapped Deep Q-Learning Networkは、最もよく知られている強化学習アルゴリズムの1つである。
本稿では,ガウス分布からのノイズやサンプルの先行値として先行情報を扱える可能性について検討し,そのアルゴリズムにさらなる多様性を導入する。
その結果,Bootstrapped Deep Q-Learningアルゴリズムの修正により,異なる種類のAtariゲームに対する評価スコアが大幅に向上した。
- 参考スコア(独自算出の注目度): 10.299850596045395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q-learning is one of the most well-known Reinforcement Learning algorithms.
There have been tremendous efforts to develop this algorithm using neural
networks. Bootstrapped Deep Q-Learning Network is amongst one of them. It
utilizes multiple neural network heads to introduce diversity into Q-learning.
Diversity can sometimes be viewed as the amount of reasonable moves an agent
can take at a given state, analogous to the definition of the exploration ratio
in RL. Thus, the performance of Bootstrapped Deep Q-Learning Network is deeply
connected with the level of diversity within the algorithm. In the original
research, it was pointed out that a random prior could improve the performance
of the model. In this article, we further explore the possibility of treating
priors as a special type of noise and sample priors from a Gaussian
distribution to introduce more diversity into this algorithm. We conduct our
experiment on the Atari benchmark and compare our algorithm to both the
original and other related algorithms. The results show that our modification
of the Bootstrapped Deep Q-Learning algorithm achieves significantly higher
evaluation scores across different types of Atari games. Thus, we conclude that
noisy priors can improve Bootstrapped Deep Q-Learning's performance by ensuring
the integrity of diversities.
- Abstract(参考訳): Q-learningは、最もよく知られた強化学習アルゴリズムの1つである。
ニューラルネットワークを用いたアルゴリズムの開発には多大な努力が払われている。
ブートストラップのDeep Q-Learning Networkもその1つだ。
複数のニューラルネットワークヘッドを使用して、q-learningに多様性を導入する。
多様性は、RLにおける探索比の定義に類似して、エージェントが与えられた状態に取る合理的な動きの量と見なすことができる。
このように、Bootstrapped Deep Q-Learning Networkの性能はアルゴリズム内の多様性のレベルと深く関連している。
元の研究では、ランダムな事前処理によりモデルの性能が向上することが指摘された。
本稿では,ガウス分布からのノイズやサンプルの先行値として先行情報を扱える可能性をさらに検討し,このアルゴリズムにさらなる多様性を導入する。
atariベンチマークを用いて実験を行い,本アルゴリズムと他のアルゴリズムとの比較を行った。
その結果,Bootstrapped Deep Q-Learningアルゴリズムの修正により,異なる種類のAtariゲームに対する評価スコアが大幅に向上した。
そこで本研究では,雑音の先行は,多様性の完全性を確保することにより,ブートストラップ型深度Q-Learningの性能を向上させることができると結論付けた。
関連論文リスト
- Layering and subpool exploration for adaptive Variational Quantum
Eigensolvers: Reducing circuit depth, runtime, and susceptibility to noise [0.0]
適応変分量子固有解法 (ADAPT-VQEs) は強い相関系のシミュレーションにおいて有望な候補である。
近年の取り組みは、アンザッツ回路のコンパクト化、または層化に向けられている。
層状化は振幅減衰や減音に対する耐雑音性の向上につながることを示す。
論文 参考訳(メタデータ) (2023-08-22T18:00:02Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Learning with Differentiable Algorithms [6.47243430672461]
この論文は、古典的なアルゴリズムとニューラルネットワークのような機械学習システムを組み合わせることを探求している。
この論文はアルゴリズムの監督という概念を定式化し、ニューラルネットワークがアルゴリズムから、あるいは、アルゴリズムと連動して学ぶことを可能にする。
さらに、この論文では、微分可能なソートネットワーク、微分可能なソートゲート、微分可能な論理ゲートネットワークなど、微分可能なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-01T17:30:00Z) - A Continuous Optimisation Benchmark Suite from Neural Network Regression [0.0]
ニューラルネットワークのトレーニングは、近年のディープラーニングの成功で注目を集めている最適化タスクである。
勾配降下変種は、大規模機械学習タスクにおける信頼性の高いパフォーマンスにおいて、最も一般的な選択である。
CORNNは、ニューラルネットワークのトレーニング問題に対して、連続的なブラックボックスアルゴリズムのパフォーマンスをベンチマークするスイートである。
論文 参考訳(メタデータ) (2021-09-12T20:24:11Z) - A robust approach for deep neural networks in presence of label noise:
relabelling and filtering instances during training [14.244244290954084]
我々は、任意のCNNで使用できるRAFNIと呼ばれるラベルノイズに対する堅牢なトレーニング戦略を提案する。
RAFNIは、インスタンスをフィルタリングする2つのメカニズムと、インスタンスをリラベルする1つのメカニズムからなる。
いくつかのサイズと特徴の異なるデータセットを用いて,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-08T16:11:31Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - TorchDyn: A Neural Differential Equations Library [16.43439140464003]
継続的深層学習に特化したPyTorchライブラリであるTorchDynを紹介する。
通常のプラグアンドプレイ深層学習プリミティブと同じくらいアクセスしやすいように、神経微分方程式を高めるように設計されている。
論文 参考訳(メタデータ) (2020-09-20T03:45:49Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Learning to Stop While Learning to Predict [85.7136203122784]
多くのアルゴリズムにインスパイアされたディープモデルは全ての入力に対して固定深度に制限される。
アルゴリズムと同様に、深いアーキテクチャの最適深さは、異なる入力インスタンスに対して異なるかもしれない。
本稿では, ステアブルアーキテクチャを用いて, この様々な深さ問題に対処する。
学習した深層モデルと停止ポリシーにより,多様なタスクセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-06-09T07:22:01Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。