論文の概要: Modified Double DQN: addressing stability
- arxiv url: http://arxiv.org/abs/2108.04115v2
- Date: Tue, 29 Oct 2024 14:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:11.523936
- Title: Modified Double DQN: addressing stability
- Title(参考訳): 修正Double DQN: 安定性に対処する
- Authors: Shervin Halat, Mohammad Mehdi Ebadzadeh, Kiana Amani,
- Abstract要約: Double-DQN (DDQN) アルゴリズムは元々、元のDQNアルゴリズムの過大評価問題に対処するために提案された。
DDQNアルゴリズムの安定性と過大評価の両面での性能を維持するために、3つの改良が提案されている。
- 参考スコア(独自算出の注目度): 0.2867517731896504
- License:
- Abstract: Inspired by Double Q-learning algorithm, the Double-DQN (DDQN) algorithm was originally proposed in order to address the overestimation issue in the original DQN algorithm. The DDQN has successfully shown both theoretically and empirically the importance of decoupling in terms of action evaluation and selection in computation of target values; although, all the benefits were acquired with only a simple adaption to DQN algorithm, minimal possible change as it was mentioned by the authors. Nevertheless, there seems a roll-back in the proposed algorithm of DDQN since the parameters of policy network are emerged again in the target value function which were initially withdrawn by DQN with the hope of tackling the serious issue of moving targets and the instability caused by it (i.e., by moving targets) in the process of learning. Therefore, in this paper three modifications to the DDQN algorithm are proposed with the hope of maintaining the performance in the terms of both stability and overestimation. These modifications are focused on the logic of decoupling the best action selection and evaluation in the target value function and the logic of tackling the moving targets issue. Each of these modifications have their own pros and cons compared to the others. The mentioned pros and cons mainly refer to the execution time required for the corresponding algorithm and the stability provided by the corresponding algorithm. Also, in terms of overestimation, none of the modifications seem to underperform compared to the original DDQN if not outperform it. With the intention of evaluating the efficacy of the proposed modifications, multiple empirical experiments along with theoretical experiments were conducted. The results obtained are represented and discussed in this article.
- Abstract(参考訳): ダブルQ-ラーニングアルゴリズムにインスパイアされたDouble-DQN (DDQN) アルゴリズムは、元々は元のDQNアルゴリズムの過大評価問題に対処するために提案されていた。
DDQNは、目標値の計算における行動評価と選択の両面でのデカップリングの重要性を理論的にも実証的にも証明した。
それにもかかわらず、DDQNのアルゴリズムは、DQNによって最初に取り下げられたターゲット値関数に再びポリシーネットワークのパラメータが現れるので、学習過程において、移動対象の深刻な問題とそれに起因する不安定性(すなわち、移動対象による)に対処することが期待できるため、ロールバックのように見える。
そこで本稿では, DDQNアルゴリズムの安定性と過大評価の両方の観点から, 性能を維持するために, DDQNアルゴリズムに3つの改良を加えて提案する。
これらの修正は、目標値関数における最良のアクション選択と評価を分離する論理と、移動対象問題に取り組む論理に焦点を当てている。
それぞれの変更は、他の修正と比べてそれぞれ独自の長所と短所を持っている。
上記の長所と短所は、主に対応するアルゴリズムに必要な実行時間と対応するアルゴリズムが提供する安定性を指す。
また、過大評価の面では、どの修正も本来のDDQNに比べて性能が劣っているようには見えない。
提案手法の有効性を評価する目的で,複数の実験実験と理論実験を行った。
得られた結果は、この記事で述べ、論じる。
関連論文リスト
- Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Prominent Roles of Conditionally Invariant Components in Domain Adaptation: Theory and Algorithms [10.949415951813661]
ドメイン適応(DA)は、モデルを訓練するために使用されるソースデータの分布が、モデルを評価するために使用されるターゲットデータと異なるときに発生する統計的学習問題である。
我々は、条件不変成分(CIC)が予測に関係していることを示し、条件不変成分をソースデータとターゲットデータ間で保持することを示す。
我々は,CICに基づく新しいアルゴリズム,重要度重み付き条件不変ペナルティ(IW-CIP)を提案する。
論文 参考訳(メタデータ) (2023-09-19T04:04:59Z) - Benchmark tasks for Quality-Diversity applied to Uncertain domains [1.5469452301122175]
実装が容易で軽量な8つのタスクを3つのカテゴリに分けて紹介します。
我々は、UQDベンチマークタスクを簡単に定義するための重要な不確実性を特定する。
私たちのタスクはすべて、Redundant Arm上に構築されています。
論文 参考訳(メタデータ) (2023-04-24T21:23:26Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Towards QD-suite: developing a set of benchmarks for Quality-Diversity
algorithms [0.0]
既存のベンチマークは標準化されておらず、現在、品質多様性(QD)に匹敵するMNISTはない。
我々は、QD手法が直面する課題の特定と、目標とする、挑戦的でスケーラブルなベンチマークの開発が重要なステップであると主張している。
論文 参考訳(メタデータ) (2022-05-06T13:33:50Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - A Penalized Shared-parameter Algorithm for Estimating Optimal Dynamic
Treatment Regimens [3.9023554886892438]
既存のQ-Sharedアルゴリズムは,Q-ラーニング設定において線形モデルを用いることにより,非収束性に悩まされる可能性があることを示す。
提案手法を実世界の応用と数種類の合成シミュレーションで実証する。
論文 参考訳(メタデータ) (2021-07-13T05:31:14Z) - AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。
前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。
本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:22:01Z) - Optimistic Exploration even with a Pessimistic Initialisation [57.41327865257504]
最適初期化は強化学習(RL)における効率的な探索のための効果的な戦略である
特に、正の報酬しか持たないシナリオでは、Q-値はその最低値で初期化される。
本稿では、ニューラルネットワークから楽観性の源を分離する、悲観的に初期化されたQ値に対する単純なカウントベースの拡張を提案する。
論文 参考訳(メタデータ) (2020-02-26T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。