論文の概要: Resetting the Optimizer in Deep RL: An Empirical Study
- arxiv url: http://arxiv.org/abs/2306.17833v1
- Date: Fri, 30 Jun 2023 17:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 11:26:16.129424
- Title: Resetting the Optimizer in Deep RL: An Empirical Study
- Title(参考訳): 深部RLにおけるオプティマイザのリセット : 実証的研究
- Authors: Kavosh Asadi, Rasool Fakoor, Shoham Sabach
- Abstract要約: 深層強化学習における最適値関数の近似に着目する。
この問題に対する一般的なアプローチは、アダムのような勾配降下アルゴリズムの現代的な変種を採用することである。
- 参考スコア(独自算出の注目度): 7.917351629116001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the task of approximating the optimal value function in deep
reinforcement learning. This iterative process is comprised of approximately
solving a sequence of optimization problems where the objective function can
change per iteration. The common approach to solving the problem is to employ
modern variants of the stochastic gradient descent algorithm such as Adam.
These optimizers maintain their own internal parameters such as estimates of
the first and the second moment of the gradient, and update these parameters
over time. Therefore, information obtained in previous iterations is being used
to solve the optimization problem in the current iteration. We hypothesize that
this can contaminate the internal parameters of the employed optimizer in
situations where the optimization landscape of the previous iterations is quite
different from the current iteration. To hedge against this effect, a simple
idea is to reset the internal parameters of the optimizer when starting a new
iteration. We empirically investigate this resetting strategy by employing
various optimizers in conjunction with the Rainbow algorithm. We demonstrate
that this simple modification unleashes the true potential of modern
optimizers, and significantly improves the performance of deep RL on the Atari
benchmark.
- Abstract(参考訳): 深層強化学習における最適値関数を近似するタスクに着目した。
この反復過程は、目的関数が反復毎に変更可能な最適化問題の系列を概ね解くことによって構成される。
この問題を解決する一般的なアプローチは、アダムのような確率的勾配降下アルゴリズムの現代的な変種を採用することである。
これらのオプティマイザは、勾配の第1モーメントと第2モーメントの推定などの独自の内部パラメータを保持し、時間とともにこれらのパラメータを更新する。
したがって、以前のイテレーションで得られた情報は、現在のイテレーションの最適化問題を解決するために使われている。
これは、以前のイテレーションの最適化環境が現在のイテレーションと大きく異なる状況において、採用したオプティマイザの内部パラメータを汚染する可能性があると仮定する。
この効果に対抗するため、新しいイテレーションを開始する際に最適化器の内部パラメータをリセットする、という単純なアイデアがある。
我々はRainbowアルゴリズムと組み合わせて様々なオプティマイザを用いて,このリセット戦略を実証的に検討する。
この単純な修正が現代のオプティマイザの真の可能性を解き放ち、atariベンチマークでdeep rlの性能を大幅に向上させることを実証する。
関連論文リスト
- Optimizing Tensor Computation Graphs with Equality Saturation and Monte Carlo Tree Search [0.0]
モンテカルロ木探索を用いて優れた表現を構築するテンソルグラフ書き換え手法を提案する。
提案手法は,既存の手法と比較して,ニューラルネットワークの推論速度を最大11%向上させる。
論文 参考訳(メタデータ) (2024-10-07T22:22:02Z) - Reducing measurement costs by recycling the Hessian in adaptive variational quantum algorithms [0.0]
本稿では,適応VQAに適した準ニュートン最適化プロトコルを提案する。
我々は,適応VQAの繰り返しを通じて,逆ヘッセン行列に対する近似を連続的に構築し,成長させる準ニュートンアルゴリズムを実装した。
論文 参考訳(メタデータ) (2024-01-10T14:08:04Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。
このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文 参考訳(メタデータ) (2022-11-26T09:06:15Z) - An Accelerated Variance-Reduced Conditional Gradient Sliding Algorithm
for First-order and Zeroth-order Optimization [111.24899593052851]
条件勾配アルゴリズム(Frank-Wolfeアルゴリズムとも呼ばれる)は、最近、機械学習コミュニティで人気を取り戻している。
ARCSは、ゼロ階最適化において凸問題を解く最初のゼロ階条件勾配スライディング型アルゴリズムである。
1次最適化では、ARCSの収束結果は、勾配クエリのオラクルの数で、従来のアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-09-18T07:08:11Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Adaptive Importance Sampling for Finite-Sum Optimization and Sampling
with Decreasing Step-Sizes [4.355567556995855]
ステップサイズを小さくした有限サム最適化とサンプリングのための適応的重要度サンプリングのための簡易かつ効率的なアルゴリズムであるavareを提案する。
標準的な技術的条件下では、$mathcalO(T2/3)$と$mathcalO(T5/6)$の動的後悔をそれぞれ、$mathcalO(T5/6)$のステップサイズで実行するときに達成している。
論文 参考訳(メタデータ) (2021-03-23T00:28:15Z) - Divide and Learn: A Divide and Conquer Approach for Predict+Optimize [50.03608569227359]
予測+最適化問題は、予測係数を使用する最適化プロブレムと、確率係数の機械学習を組み合わせる。
本稿では, 予測係数を1次線形関数として, 最適化問題の損失を直接表現する方法を示す。
本稿では,この制約を伴わずに最適化問題に対処し,最適化損失を用いてその係数を予測する新しい分割アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-04T00:26:56Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。