論文の概要: An adaptive synchronization approach for weights of deep reinforcement
learning
- arxiv url: http://arxiv.org/abs/2008.06973v1
- Date: Sun, 16 Aug 2020 18:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 09:07:15.950596
- Title: An adaptive synchronization approach for weights of deep reinforcement
learning
- Title(参考訳): 深部強化学習の重みに対する適応的同期手法
- Authors: S. Amirreza Badran, Mansoor Rezghi
- Abstract要約: ディープQ-Networks(DQN)は、ディープ強化学習の最もよく知られている方法の1つである。
ネットワークの重みを一定のステップサイズで同期させ、エージェントの振る舞いとは無関係に、場合によっては適切に学習されたネットワークが失われる可能性がある。
DQNで使用される神経重みの同期に適応的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.132096006921048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Q-Networks (DQN) is one of the most well-known methods of deep
reinforcement learning, which uses deep learning to approximate the
action-value function. Solving numerous Deep reinforcement learning challenges
such as moving targets problem and the correlation between samples are the main
advantages of this model. Although there have been various extensions of DQN in
recent years, they all use a similar method to DQN to overcome the problem of
moving targets. Despite the advantages mentioned, synchronizing the network
weight in a fixed step size, independent of the agent's behavior, may in some
cases cause the loss of some properly learned networks. These lost networks may
lead to states with more rewards, hence better samples stored in the replay
memory for future training. In this paper, we address this problem from the DQN
family and provide an adaptive approach for the synchronization of the neural
weights used in DQN. In this method, the synchronization of weights is done
based on the recent behavior of the agent, which is measured by a criterion at
the end of the intervals. To test this method, we adjusted the DQN and rainbow
methods with the proposed adaptive synchronization method. We compared these
adjusted methods with their standard form on well-known games, which results
confirm the quality of our synchronization methods.
- Abstract(参考訳): 深部Q-Networks (DQN) は深部強化学習の最もよく知られた手法の1つであり、深部学習を用いて作用値関数を近似する。
移動目標問題やサンプル間の相関といった多くの深層強化学習課題を解決することが、このモデルの主な利点である。
近年、DQNの様々な拡張があるが、いずれも移動目標の問題を克服するためにDQNと同様の手法を使用している。
上記の利点にもかかわらず、エージェントの行動によらず、一定のステップサイズでネットワークの重みを同期させることによって、適切に学習されたネットワークが失われる場合がある。
これらの失われたネットワークは、より多くの報酬を持つ状態につながる可能性があるため、将来のトレーニングのためにリプレイメモリに保存されるより良いサンプルとなる。
本稿では、DQNファミリーからこの問題に対処し、DQNで使用される神経重みの同期に適応的なアプローチを提案する。
この方法では、時間間隔の終端における基準によって測定されるエージェントの最近の挙動に基づいて重みの同期を行う。
本手法をテストするために,適応同期法を用いてDQN法と虹色法を調整した。
これらの調整手法を,よく知られたゲーム上での標準形式と比較し,同期方式の品質を確認した。
関連論文リスト
- FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental
Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。
我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。
我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文 参考訳(メタデータ) (2023-09-13T08:51:19Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - OSP: Boosting Distributed Model Training with 2-stage Synchronization [24.702780532364056]
オーバーラップ並列化(OSP)と呼ばれる新しいモデル同期手法を提案する。
OSPは2段階同期方式で効率的な通信を実現し、Local-Gradientベースを使用する。
古いパラメータによる精度損失を避けるための修正(LGP)。
その結果、OSPは、一般的な同期モデルと比較して、精度を損なうことなく、最大50%のスループット向上を達成できることがわかった。
論文 参考訳(メタデータ) (2023-06-29T13:24:12Z) - M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。
ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2022-09-16T09:20:35Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - Analytically Tractable Bayesian Deep Q-Learning [0.0]
我々は時間差Q-ラーニングフレームワークを適応させ、抽出可能な近似ガウス推論(TAGI)と互換性を持たせる。
我々は,TAGIがバックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
論文 参考訳(メタデータ) (2021-06-21T13:11:52Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z) - Improving Robustness of Deep-Learning-Based Image Reconstruction [24.882806652224854]
逆問題解法では, 測定空間における敵の効果を分析し, 研究する必要がある。
本稿では,高機能な画像再構成ネットワークを構築するために,min-maxの定式化に使用される逆例を生成する補助ネットワークを提案する。
提案したmin-max学習方式を用いた線形ネットワークは,実際に同じ解に収束する。
論文 参考訳(メタデータ) (2020-02-26T22:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。