論文の概要: Modified Double DQN: addressing stability
- arxiv url: http://arxiv.org/abs/2108.04115v1
- Date: Mon, 9 Aug 2021 15:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 18:22:54.218503
- Title: Modified Double DQN: addressing stability
- Title(参考訳): 修正Double DQN: 安定性に対処する
- Authors: Shervin Halat, Mohammad Mehdi Ebadzadeh
- Abstract要約: Double-DQNアルゴリズムは元々、元のDQNアルゴリズムの過大評価問題に対処するために提案された。
安定性と過大評価の両方の観点から性能を維持するために,Double-DQNアルゴリズムに3つの改良を加えて提案する。
- 参考スコア(独自算出の注目度): 1.599072005190786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by double q learning algorithm, the double DQN algorithm was
originally proposed in order to address the overestimation issue in the
original DQN algorithm. The double DQN has successfully shown both
theoretically and empirically the importance of decoupling in terms of action
evaluation and selection in computation of targets values; although, all the
benefits were acquired with only a simple adaption to DQN algorithm, minimal
possible change as it was mentioned by the authors. Nevertheless, there seems a
roll-back in the proposed algorithm of Double-DQN since the parameters of
policy network are emerged again in the target value function which were
initially withdrawn by DQN with the hope of tackling the serious issue of
moving targets and the instability caused by it (i.e., by moving targets) in
the process of learning. Therefore, in this paper three modifications to the
Double-DQN algorithm are proposed with the hope of maintaining the performance
in the terms of both stability and overestimation. These modifications are
focused on the logic of decoupling the best action selection and evaluation in
the target value function and the logic of tackling the moving targets issue.
Each of these modifications have their own pros and cons compared to the
others. The mentioned pros and cons mainly refer to the execution time required
for the corresponding algorithm and the stability provided by the corresponding
algorithm. Also, in terms of overestimation, none of the modifications seem to
underperform compared to the original Double-DQN if not outperform it. With the
intention of evaluating the efficacy of the proposed modifications, multiple
empirical experiments along with theoretical experiments were conducted. The
results obtained are represented and discussed in this article.
- Abstract(参考訳): ダブルq学習アルゴリズムにインスパイアされたダブルdqnアルゴリズムは、元々はオリジナルのdqnアルゴリズムの過大評価問題に対処するために提案された。
二重DQNは、目標値の計算における行動評価と選択の両面でのデカップリングの重要性を理論的にも実証的にも証明した。
それにもかかわらず、DQNによって最初に取り下げられた目標値関数にポリシーネットワークのパラメータが再び出現し、学習過程における移動目標の深刻な問題とそれに起因する不安定性(つまり、移動目標)に対処することが期待されているため、提案されたDouble-DQNのアルゴリズムにはロールバックがあるようである。
そこで本稿では,安定性と過大評価の両面から性能を維持するために,Double-DQNアルゴリズムの3つの改良を提案する。
これらの修正は、目標値関数における最善のアクション選択と評価を分離する論理と、移動対象問題に取り組む論理に焦点を当てている。
それぞれの変更は、他の修正と比べてそれぞれ独自の長所と短所を持っている。
上記の長所と短所は、主に対応するアルゴリズムに必要な実行時間と対応するアルゴリズムが提供する安定性を指す。
また、過大評価の面では、修正はオリジナルのDouble-DQNよりも性能が劣っているように思われる。
提案手法の有効性を評価する目的で,複数の実験実験と理論実験を行った。
得られた結果は、この記事で述べ、論じる。
関連論文リスト
- Quantum Annealing Solutions for the Closest String Problem with D-Wave
Systems [0.0]
クローズストストリング問題(Closest String problem)は、生物情報学や符号化理論でよく見られるNP完全問題である。
2つのQUBOの定式化が提案されており、1つはもう1つに対してわずかに修正されている。
DWaveアナライザは、特定のプラットフォーム固有の関心事に対する最適なガイドラインを提供しながら使われてきた。
論文 参考訳(メタデータ) (2023-10-19T16:03:25Z) - Prominent Roles of Conditionally Invariant Components in Domain
Adaptation: Theory and Algorithms [11.961450326677667]
ドメイン適応(DA)は、モデルを訓練するために使用されるソースデータの分布が、モデルを評価するために使用されるターゲットデータと異なるときに発生する統計的学習問題である。
我々は、条件不変成分(CIC)が予測に関係していることを示し、条件不変成分をソースデータとターゲットデータ間で保持することを示す。
我々は,CICに基づく新しいアルゴリズム,重要度重み付き条件不変ペナルティ(IW-CIP)を提案する。
論文 参考訳(メタデータ) (2023-09-19T04:04:59Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Towards QD-suite: developing a set of benchmarks for Quality-Diversity
algorithms [0.0]
既存のベンチマークは標準化されておらず、現在、品質多様性(QD)に匹敵するMNISTはない。
我々は、QD手法が直面する課題の特定と、目標とする、挑戦的でスケーラブルなベンチマークの開発が重要なステップであると主張している。
論文 参考訳(メタデータ) (2022-05-06T13:33:50Z) - Doubly Robust Estimation with Machine Learning Predictions [0.0]
本稿では,いくつかのシナリオにおいて有効なAIPW(nAIPW)の正規化を提案する。
シミュレーションの結果,AIPWは正規化を使わなければ広範囲に悩まされることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T22:01:55Z) - AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。
前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。
本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:22:01Z) - A New One-Point Residual-Feedback Oracle For Black-Box Learning and
Control [28.679167097106813]
本稿では,各反復で関数値を1回クエリし,2つの連続点間の残差を用いて勾配を推定する新しい一点フィードバック方式を提案する。
提案アルゴリズムは,制御不能なデータサンプルを持つ2点スキームと同じ収束率が得られることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:31:13Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z) - Optimistic Exploration even with a Pessimistic Initialisation [57.41327865257504]
最適初期化は強化学習(RL)における効率的な探索のための効果的な戦略である
特に、正の報酬しか持たないシナリオでは、Q-値はその最低値で初期化される。
本稿では、ニューラルネットワークから楽観性の源を分離する、悲観的に初期化されたQ値に対する単純なカウントベースの拡張を提案する。
論文 参考訳(メタデータ) (2020-02-26T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。