論文の概要: Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient
- arxiv url: http://arxiv.org/abs/2007.12817v1
- Date: Sat, 25 Jul 2020 00:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 00:44:54.963770
- Title: Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient
- Title(参考訳): 確率的再帰勾配を用いた深部Q-Learningのばらつき低減
- Authors: Haonan Jia, Xiao Zhang, Jun Xu, Wei Zeng, Hao Jiang, Xiaohui Yan,
Ji-Rong Wen
- Abstract要約: 深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.880464915253924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Q-learning algorithms often suffer from poor gradient estimations with
an excessive variance, resulting in unstable training and poor sampling
efficiency. Stochastic variance-reduced gradient methods such as SVRG have been
applied to reduce the estimation variance (Zhao et al. 2019). However, due to
the online instance generation nature of reinforcement learning, directly
applying SVRG to deep Q-learning is facing the problem of the inaccurate
estimation of the anchor points, which dramatically limits the potentials of
SVRG. To address this issue and inspired by the recursive gradient variance
reduction algorithm SARAH (Nguyen et al. 2017), this paper proposes to
introduce the recursive framework for updating the stochastic gradient
estimates in deep Q-learning, achieving a novel algorithm called SRG-DQN.
Unlike the SVRG-based algorithms, SRG-DQN designs a recursive update of the
stochastic gradient estimate. The parameter update is along an accumulated
direction using the past stochastic gradient information, and therefore can get
rid of the estimation of the full gradients as the anchors. Additionally,
SRG-DQN involves the Adam process for further accelerating the training
process. Theoretical analysis and the experimental results on well-known
reinforcement learning tasks demonstrate the efficiency and effectiveness of
the proposed SRG-DQN algorithm.
- Abstract(参考訳): 深層q学習アルゴリズムは、過度なばらつきを伴う勾配推定に苦しむことが多く、不安定なトレーニングとサンプリング効率が低下する。
svrg のような確率的分散還元勾配法は, 推定分散の低減に応用されている(zhao et al. 2019)。
しかし、強化学習のオンラインインスタンス生成の性質から、深層Q-ラーニングにSVRGを直接適用することは、アンカーポイントの不正確な推定の問題に直面しており、SVRGの可能性は劇的に制限されている。
この問題に対処し, SARAH (Nguyen et al. 2017) にインスパイアされた本論文では, SRG-DQN と呼ばれる新しいアルゴリズムの実現により, 深部Q-ラーニングにおける確率的勾配推定を更新するための再帰的フレームワークを提案する。
SVRGベースのアルゴリズムとは異なり、SRG-DQNは確率勾配推定の再帰的な更新を設計する。
パラメータ更新は過去の確率的勾配情報を用いて累積方向に沿って行われるため、アンカーとしての全勾配の推定を取り除くことができる。
さらに、SRG-DQNはトレーニングプロセスをさらに加速するAdamプロセスを含んでいる。
強化学習タスクの理論的解析と実験結果から,提案するsrg-dqnアルゴリズムの有効性と有効性が示された。
関連論文リスト
- Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Low-memory stochastic backpropagation with multi-channel randomized
trace estimation [6.985273194899884]
ニューラルネットワークにおける畳み込み層の勾配を多チャンネルランダム化トレース推定手法を用いて近似する。
他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。
本稿では、バックプロパゲーションでトレーニングしたネットワークの性能と、メモリ使用量の最大化と計算オーバーヘッドの最小化を図りながら、エラーを制御する方法について論じる。
論文 参考訳(メタデータ) (2021-06-13T13:54:02Z) - A Differentiable Point Process with Its Application to Spiking Neural
Networks [13.160616423673373]
Jimenez Rezende & Gerstner (2014) は、隠れたニューロンでSNNを訓練するための変分推論アルゴリズムを提案した。
本稿では,経路ワイド勾配推定器に基づくSNNの代替勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-06-02T02:40:17Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Semi-Implicit Back Propagation [1.5533842336139065]
ニューラルネットワークトレーニングのための半単純バック伝搬法を提案する。
ニューロンの差は後方方向に伝播し、パラメータは近位写像で更新される。
MNISTとCIFAR-10の両方の実験により、提案アルゴリズムは損失減少とトレーニング/検証の精度の両方において、より良い性能をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-10T03:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。