Fugu-MT 論文翻訳(概要): Modified Double DQN: addressing stability

論文の概要: Modified Double DQN: addressing stability

arxiv url: http://arxiv.org/abs/2108.04115v1
Date: Mon, 9 Aug 2021 15:27:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-10 18:22:54.218503
Title: Modified Double DQN: addressing stability
Title（参考訳）: 修正Double DQN: 安定性に対処する
Authors: Shervin Halat, Mohammad Mehdi Ebadzadeh
Abstract要約: Double-DQNアルゴリズムは元々、元のDQNアルゴリズムの過大評価問題に対処するために提案された。安定性と過大評価の両方の観点から性能を維持するために,Double-DQNアルゴリズムに3つの改良を加えて提案する。
参考スコア（独自算出の注目度）: 1.599072005190786
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inspired by double q learning algorithm, the double DQN algorithm was originally proposed in order to address the overestimation issue in the original DQN algorithm. The double DQN has successfully shown both theoretically and empirically the importance of decoupling in terms of action evaluation and selection in computation of targets values; although, all the benefits were acquired with only a simple adaption to DQN algorithm, minimal possible change as it was mentioned by the authors. Nevertheless, there seems a roll-back in the proposed algorithm of Double-DQN since the parameters of policy network are emerged again in the target value function which were initially withdrawn by DQN with the hope of tackling the serious issue of moving targets and the instability caused by it (i.e., by moving targets) in the process of learning. Therefore, in this paper three modifications to the Double-DQN algorithm are proposed with the hope of maintaining the performance in the terms of both stability and overestimation. These modifications are focused on the logic of decoupling the best action selection and evaluation in the target value function and the logic of tackling the moving targets issue. Each of these modifications have their own pros and cons compared to the others. The mentioned pros and cons mainly refer to the execution time required for the corresponding algorithm and the stability provided by the corresponding algorithm. Also, in terms of overestimation, none of the modifications seem to underperform compared to the original Double-DQN if not outperform it. With the intention of evaluating the efficacy of the proposed modifications, multiple empirical experiments along with theoretical experiments were conducted. The results obtained are represented and discussed in this article.
Abstract（参考訳）: ダブルq学習アルゴリズムにインスパイアされたダブルdqnアルゴリズムは、元々はオリジナルのdqnアルゴリズムの過大評価問題に対処するために提案された。二重DQNは、目標値の計算における行動評価と選択の両面でのデカップリングの重要性を理論的にも実証的にも証明した。それにもかかわらず、DQNによって最初に取り下げられた目標値関数にポリシーネットワークのパラメータが再び出現し、学習過程における移動目標の深刻な問題とそれに起因する不安定性(つまり、移動目標)に対処することが期待されているため、提案されたDouble-DQNのアルゴリズムにはロールバックがあるようである。そこで本稿では,安定性と過大評価の両面から性能を維持するために,Double-DQNアルゴリズムの3つの改良を提案する。これらの修正は、目標値関数における最善のアクション選択と評価を分離する論理と、移動対象問題に取り組む論理に焦点を当てている。それぞれの変更は、他の修正と比べてそれぞれ独自の長所と短所を持っている。上記の長所と短所は、主に対応するアルゴリズムに必要な実行時間と対応するアルゴリズムが提供する安定性を指す。また、過大評価の面では、修正はオリジナルのDouble-DQNよりも性能が劣っているように思われる。提案手法の有効性を評価する目的で,複数の実験実験と理論実験を行った。得られた結果は、この記事で述べ、論じる。

関連論文リスト

Sat-EnQ: Satisficing Ensembles of Weak Q-Learners for Reliable and Compute-Efficient Reinforcement Learning [0.0]
Sat-EnQは、アグレッシブに最適化する前に、十分に良いことを学習するフレームワークです。フェーズ1では、初期価値成長を制限する満足度の高い目標の下で、軽量Qネットワークのアンサンブルをトレーニングします。フェーズ2では、アンサンブルはより大きなネットワークに蒸留され、標準のダブルDQNで微調整される。
論文参考訳（メタデータ） (2025-12-28T12:41:09Z)
Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文参考訳（メタデータ） (2025-11-13T07:26:01Z)
Iterative Partition Search Variational Quantum Algorithm for Solving Shortest Vector Problem [5.7878635559750515]
最短ベクトル問題(SVP)を解決するための反復分割探索アルゴリズム(IPSA)を提案する。我々のアルゴリズムは分割のコアアイデアを継承し、PSAから「ゼロベクトル」を回避し、IQOAPから「反復格子基底還元」フレームワークを継承する。 IPSAの重要な特徴は「1尾の検索空間」であり、PSAの分割戦略の高度に制約された変種と見なすことができる。
論文参考訳（メタデータ） (2025-08-26T12:53:02Z)
Ensemble Elastic DQN: A novel multi-step ensemble approach to address overestimation in deep value-based reinforcement learning [1.8008841825105586]
本稿では,エンサンブルを弾性的なステップ更新で統一し,アルゴリズム性能を安定化させる,Ensemble Elastic Step DQN (EEDQN) という新しいアルゴリズムを提案する。 EEDQNは、過大評価バイアスとサンプル効率という、深層強化学習における2つの大きな課題に対処するように設計されている。以上の結果から,EEDQNは全テスト環境において一貫したロバストな性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-06-06T03:36:19Z)
On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations [53.0667196725616]
ディープ・強化学習(Deep Reinforcement Learning, DRL)とは、エージェントがニューラルネットワークを使って特定の環境でどのアクションをとるかを学ぶ人工知能のパラダイムである。 DRLは最近、ドライビングシミュレーター、3Dロボット制御、マルチプレイヤー・オンライン・バトル・アリーナ・ビデオゲームといった複雑な環境を解くことで注目を集めている。現在、Deep Q-Network (DQN) や Proximal Policy Optimization (PPO) アルゴリズムのような、これらのエージェントを訓練する最先端のアルゴリズムの実装が数多く存在する。
論文参考訳（メタデータ） (2025-03-28T16:25:06Z)
Smart Sampling: Self-Attention and Bootstrapping for Improved Ensembled Q-Learning [0.6963971634605796]
アンサンブルQ学習のサンプル効率向上を目的とした新しい手法を提案する。提案手法は,組立Qネットワークにマルチヘッド自己アテンションを組み込むとともに,組立Qネットワークが取り入れた状態-動作ペアをブートストラップする。
論文参考訳（メタデータ） (2024-05-14T00:57:02Z)
Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。本稿では,手話の使用を排除したRGDアルゴリズムを提案する。提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文参考訳（メタデータ） (2023-12-03T02:26:58Z)
Prominent Roles of Conditionally Invariant Components in Domain Adaptation: Theory and Algorithms [10.949415951813661]
ドメイン適応(DA)は、モデルを訓練するために使用されるソースデータの分布が、モデルを評価するために使用されるターゲットデータと異なるときに発生する統計的学習問題である。我々は、条件不変成分(CIC)が予測に関係していることを示し、条件不変成分をソースデータとターゲットデータ間で保持することを示す。我々は,CICに基づく新しいアルゴリズム,重要度重み付き条件不変ペナルティ(IW-CIP)を提案する。
論文参考訳（メタデータ） (2023-09-19T04:04:59Z)
Benchmark tasks for Quality-Diversity applied to Uncertain domains [1.5469452301122175]
実装が容易で軽量な8つのタスクを3つのカテゴリに分けて紹介します。我々は、UQDベンチマークタスクを簡単に定義するための重要な不確実性を特定する。私たちのタスクはすべて、Redundant Arm上に構築されています。
論文参考訳（メタデータ） (2023-04-24T21:23:26Z)
A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文参考訳（メタデータ） (2022-11-16T00:11:04Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Towards QD-suite: developing a set of benchmarks for Quality-Diversity algorithms [0.0]
既存のベンチマークは標準化されておらず、現在、品質多様性(QD)に匹敵するMNISTはない。我々は、QD手法が直面する課題の特定と、目標とする、挑戦的でスケーラブルなベンチマークの開発が重要なステップであると主張している。
論文参考訳（メタデータ） (2022-05-06T13:33:50Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
A Penalized Shared-parameter Algorithm for Estimating Optimal Dynamic Treatment Regimens [3.9023554886892438]
既存のQ-Sharedアルゴリズムは,Q-ラーニング設定において線形モデルを用いることにより,非収束性に悩まされる可能性があることを示す。提案手法を実世界の応用と数種類の合成シミュレーションで実証する。
論文参考訳（メタデータ） (2021-07-13T05:31:14Z)
AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文参考訳（メタデータ） (2020-08-17T13:22:01Z)
Optimistic Exploration even with a Pessimistic Initialisation [57.41327865257504]
最適初期化は強化学習(RL)における効率的な探索のための効果的な戦略である特に、正の報酬しか持たないシナリオでは、Q-値はその最低値で初期化される。本稿では、ニューラルネットワークから楽観性の源を分離する、悲観的に初期化されたQ値に対する単純なカウントベースの拡張を提案する。
論文参考訳（メタデータ） (2020-02-26T17:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。