論文の概要: t-Soft Update of Target Network for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.10861v2
- Date: Fri, 25 Dec 2020 01:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 03:07:44.983898
- Title: t-Soft Update of Target Network for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のためのターゲットネットワークのtソフトアップデート
- Authors: Taisuke Kobayashi and Wendyam Eric Lionel Ilboudo
- Abstract要約: 本稿では,深部強化学習(DRL)のためのターゲットネットワークの頑健な更新ルールを提案する。
指数移動平均と正規分布の類似性からt-soft更新法を導出した。
DRLのPyBulletロボットシミュレーションでは、t-soft更新によるオンラインアクター批判アルゴリズムが、得られたリターンおよび/またはそのばらつきの点で従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new robust update rule of target network for deep
reinforcement learning (DRL), to replace the conventional update rule, given as
an exponential moving average. The target network is for smoothly generating
the reference signals for a main network in DRL, thereby reducing learning
variance. The problem with its conventional update rule is the fact that all
the parameters are smoothly copied with the same speed from the main network,
even when some of them are trying to update toward the wrong directions. This
behavior increases the risk of generating the wrong reference signals. Although
slowing down the overall update speed is a naive way to mitigate wrong updates,
it would decrease learning speed. To robustly update the parameters while
keeping learning speed, a t-soft update method, which is inspired by student-t
distribution, is derived with reference to the analogy between the exponential
moving average and the normal distribution. Through the analysis of the derived
t-soft update, we show that it takes over the properties of the student-t
distribution. Specifically, with a heavy-tailed property of the student-t
distribution, the t-soft update automatically excludes extreme updates that
differ from past experiences. In addition, when the updates are similar to the
past experiences, it can mitigate the learning delay by increasing the amount
of updates. In PyBullet robotics simulations for DRL, an online actor-critic
algorithm with the t-soft update outperformed the conventional methods in terms
of the obtained return and/or its variance. From the training process by the
t-soft update, we found that the t-soft update is globally consistent with the
standard soft update, and the update rates are locally adjusted for
acceleration or suppression.
- Abstract(参考訳): 本稿では, 指数関数移動平均として, 従来の更新規則を置き換えるために, 深層強化学習(drl)のための目標ネットワークの新しいロバスト更新規則を提案する。
ターゲットネットワークは、DRL内のメインネットワークの参照信号を円滑に生成し、学習ばらつきを低減する。
従来のアップデートルールの問題点は、すべてのパラメータがメインネットワークから同じ速度でスムーズにコピーされていることだ。
この振る舞いは間違った参照信号を生成するリスクを高める。
全体的な更新速度の低下は、誤ったアップデートを緩和するためのナイーブな方法だが、学習速度を低下させるだろう。
学習速度を維持しつつパラメータをロバストに更新し、指数移動平均と正規分布との類似性を参照して、学生t分布にインスパイアされたtソフト更新方法を導出する。
得られた t-soft 更新を解析することにより,学生分布の特性を乗っ取ることを示す。
具体的には、学生T分布の重み付け特性により、t-softアップデートは過去の経験と異なる極端な更新を自動的に排除する。
さらに、更新が過去の経験と似ている場合、更新の量を増やして学習遅延を軽減することができる。
DRLのPyBulletロボットシミュレーションでは、t-soft更新によるオンラインアクター批判アルゴリズムが、得られたリターンおよび/またはそのばらつきの点で従来の手法よりも優れていた。
t-soft updateによるトレーニングプロセスから、t-soft updateは標準のsoft updateとグローバルに整合しており、更新レートはアクセラレーションや抑制のためにローカルに調整されていることが分かった。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Implicit Interpretation of Importance Weight Aware Updates [15.974402990630402]
次階降下は、凸機械学習アルゴリズムにおいて最もよく使われる最適化アルゴリズムの1つである。
IWAの更新は、通常のグラデーションの更新よりも、上限が厳密に良いことを初めて示します。
論文 参考訳(メタデータ) (2023-07-22T01:37:52Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - Adaptive Differential Filters for Fast and Communication-Efficient
Federated Learning [12.067586493399308]
フェデレートラーニング(FL)シナリオは、クライアントとサーバ間で頻繁にニューラルネットワークのアップデートを送信することによって、大きな通信オーバーヘッドを生成する。
本稿では,FLプロセスのスパース更新を補う畳み込みフィルタの粒度で動作する新しいスケーリング手法を提案する。
提案手法は, より高速に収束し, 送信データの総量を最大377倍に削減しながら, 中央サーバモデルの性能を向上させる。
論文 参考訳(メタデータ) (2022-04-09T08:23:25Z) - Global Update Guided Federated Learning [11.731231528534035]
フェデレーション学習は、データの代わりにモデルを交換することで、データのプライバシとセキュリティを保護する。
本稿では,局所目的関数にモデルコサイン損失を導入したグローバル更新誘導型フェデレーションラーニング(FedGG)を提案する。
数値シミュレーションにより、FedGGはモデル収束精度と速度を著しく改善していることが示された。
論文 参考訳(メタデータ) (2022-04-08T08:36:26Z) - Consolidated Adaptive T-soft Update for Deep Reinforcement Learning [8.071506311915396]
T-softの更新は、ターゲットネットワークのノイズロスト更新ルールとして提案されている。
本研究では,AdaTerm の更新ルールを利用して,適応型 T-soft (AT-soft) 更新を開発する。
論文 参考訳(メタデータ) (2022-02-25T05:40:07Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - RIFLE: Backpropagation in Depth for Deep Transfer Learning through
Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。
転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。
RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文 参考訳(メタデータ) (2020-07-07T11:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。