論文の概要: Improving the Diversity of Bootstrapped DQN by Replacing Priors With Noise
- arxiv url: http://arxiv.org/abs/2203.01004v3
- Date: Mon, 24 Jun 2024 15:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 05:34:02.855421
- Title: Improving the Diversity of Bootstrapped DQN by Replacing Priors With Noise
- Title(参考訳): 騒音による前処理によるブートストラップDQNの多様性向上
- Authors: Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad,
- Abstract要約: 本稿は,従来のノイズに置き換える可能性を探るとともに,ガウス分布からノイズをサンプリングして,このアルゴリズムにさらなる多様性を導入する可能性について考察する。
我々は,Bootstrapped Deep Q-Learningアルゴリズムの修正により,異なる種類のAtariゲームに対する評価スコアが大幅に向上することを発見した。
- 参考スコア(独自算出の注目度): 8.938418994111716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q-learning is one of the most well-known Reinforcement Learning algorithms. There have been tremendous efforts to develop this algorithm using neural networks. Bootstrapped Deep Q-Learning Network is amongst them. It utilizes multiple neural network heads to introduce diversity into Q-learning. Diversity can sometimes be viewed as the amount of reasonable moves an agent can take at a given state, analogous to the definition of the exploration ratio in RL. Thus, the performance of Bootstrapped Deep Q-Learning Network is deeply connected with the level of diversity within the algorithm. In the original research, it was pointed out that a random prior could improve the performance of the model. In this article, we further explore the possibility of replacing priors with noise and sample the noise from a Gaussian distribution to introduce more diversity into this algorithm. We conduct our experiment on the Atari benchmark and compare our algorithm to both the original and other related algorithms. The results show that our modification of the Bootstrapped Deep Q-Learning algorithm achieves significantly higher evaluation scores across different types of Atari games. Thus, we conclude that replacing priors with noise can improve Bootstrapped Deep Q-Learning's performance by ensuring the integrity of diversities.
- Abstract(参考訳): Q-learningは、最もよく知られた強化学習アルゴリズムの1つである。
ニューラルネットワークを使ったこのアルゴリズムの開発には、多大な努力が払われている。
ブートストラップのDeep Q-Learning Networkもその一つだ。
複数のニューラルネットワークヘッドを使用して、Qラーニングに多様性を導入する。
多様性は、RLにおける探索比の定義に類似して、エージェントが与えられた状態に取ることができる合理的な動きの量と見なすことができる。
このように、Bootstrapped Deep Q-Learning Networkの性能はアルゴリズム内の多様性のレベルと深く関連している。
元の研究では、ランダムな事前処理によりモデルの性能が向上することが指摘された。
本稿では,従来のノイズに置き換える可能性をさらに検討し,ガウス分布からノイズをサンプリングし,このアルゴリズムにさらなる多様性を導入する。
我々はAtariベンチマークで実験を行い、元のアルゴリズムと関連するアルゴリズムを比較した。
その結果,Bootstrapped Deep Q-Learningアルゴリズムの修正により,異なる種類のAtariゲームに対する評価スコアが大幅に向上した。
そこで本研究では,雑音による事前の置き換えにより,多様性の整合性を確保することにより,ブートストラップ型深度Q-Learningの性能を向上させることができると結論付けた。
関連論文リスト
- Layering and subpool exploration for adaptive Variational Quantum
Eigensolvers: Reducing circuit depth, runtime, and susceptibility to noise [0.0]
適応変分量子固有解法 (ADAPT-VQEs) は強い相関系のシミュレーションにおいて有望な候補である。
近年の取り組みは、アンザッツ回路のコンパクト化、または層化に向けられている。
層状化は振幅減衰や減音に対する耐雑音性の向上につながることを示す。
論文 参考訳(メタデータ) (2023-08-22T18:00:02Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Learning with Differentiable Algorithms [6.47243430672461]
この論文は、古典的なアルゴリズムとニューラルネットワークのような機械学習システムを組み合わせることを探求している。
この論文はアルゴリズムの監督という概念を定式化し、ニューラルネットワークがアルゴリズムから、あるいは、アルゴリズムと連動して学ぶことを可能にする。
さらに、この論文では、微分可能なソートネットワーク、微分可能なソートゲート、微分可能な論理ゲートネットワークなど、微分可能なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-01T17:30:00Z) - A Continuous Optimisation Benchmark Suite from Neural Network Regression [0.0]
ニューラルネットワークのトレーニングは、近年のディープラーニングの成功で注目を集めている最適化タスクである。
勾配降下変種は、大規模機械学習タスクにおける信頼性の高いパフォーマンスにおいて、最も一般的な選択である。
CORNNは、ニューラルネットワークのトレーニング問題に対して、連続的なブラックボックスアルゴリズムのパフォーマンスをベンチマークするスイートである。
論文 参考訳(メタデータ) (2021-09-12T20:24:11Z) - A robust approach for deep neural networks in presence of label noise:
relabelling and filtering instances during training [14.244244290954084]
我々は、任意のCNNで使用できるRAFNIと呼ばれるラベルノイズに対する堅牢なトレーニング戦略を提案する。
RAFNIは、インスタンスをフィルタリングする2つのメカニズムと、インスタンスをリラベルする1つのメカニズムからなる。
いくつかのサイズと特徴の異なるデータセットを用いて,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-08T16:11:31Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - TorchDyn: A Neural Differential Equations Library [16.43439140464003]
継続的深層学習に特化したPyTorchライブラリであるTorchDynを紹介する。
通常のプラグアンドプレイ深層学習プリミティブと同じくらいアクセスしやすいように、神経微分方程式を高めるように設計されている。
論文 参考訳(メタデータ) (2020-09-20T03:45:49Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Learning to Stop While Learning to Predict [85.7136203122784]
多くのアルゴリズムにインスパイアされたディープモデルは全ての入力に対して固定深度に制限される。
アルゴリズムと同様に、深いアーキテクチャの最適深さは、異なる入力インスタンスに対して異なるかもしれない。
本稿では, ステアブルアーキテクチャを用いて, この様々な深さ問題に対処する。
学習した深層モデルと停止ポリシーにより,多様なタスクセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-06-09T07:22:01Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。