論文の概要: Toward Efficient Gradient-Based Value Estimation
- arxiv url: http://arxiv.org/abs/2301.13757v2
- Date: Tue, 6 Jun 2023 14:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 20:55:50.031228
- Title: Toward Efficient Gradient-Based Value Estimation
- Title(参考訳): 効率の良い勾配値推定に向けて
- Authors: Arsalan Sharifnassab, Richard Sutton
- Abstract要約: 強化学習における値推定の勾配に基づく手法は、時間差(TD)学習法よりも典型的にはるかに遅い。
この速度の根本原因について検討し,メアン・スクエア・ベルマン・エラー(MSBE)がヘッセンの条件数が大きいという意味で不条件損失関数であることを示す。
本稿では,ガウス・ニュートン方向をほぼ追従し,パラメータ化に頑健な,低複雑性なバッチフリー近似法を提案する。
RANSと呼ばれる本アルゴリズムは, ほぼ同一でありながら, 残留勾配法よりもかなり高速であるという意味で, 効率的である。
- 参考スコア(独自算出の注目度): 4.365720395124051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based methods for value estimation in reinforcement learning have
favorable stability properties, but they are typically much slower than
Temporal Difference (TD) learning methods. We study the root causes of this
slowness and show that Mean Square Bellman Error (MSBE) is an ill-conditioned
loss function in the sense that its Hessian has large condition-number. To
resolve the adverse effect of poor conditioning of MSBE on gradient based
methods, we propose a low complexity batch-free proximal method that
approximately follows the Gauss-Newton direction and is asymptotically robust
to parameterization. Our main algorithm, called RANS, is efficient in the sense
that it is significantly faster than the residual gradient methods while having
almost the same computational complexity, and is competitive with TD on the
classic problems that we tested.
- Abstract(参考訳): 強化学習における値推定法は安定性がよいが,時間差(TD)学習法よりもかなり遅いのが一般的である。
この遅さの根本原因を考察し,平均正方形ベルマン誤差 (msbe) が条件数が大きいという意味では不条件損失関数であることを示した。
グラデーションベース法におけるmsbeの低条件化の悪影響を解決するため,ガウス・ニュートン方向にほぼ従い,パラメータ化に漸近的にロバストな低複雑性バッチフリー近位法を提案する。
RANSと呼ばれる本アルゴリズムは, 計算複雑性がほぼ同じでありながら, 残留勾配法よりもかなり高速であるという意味で効率的であり, テストした古典的問題に対してTDと競合する。
関連論文リスト
- Byzantine-Robust Decentralized Stochastic Optimization with Stochastic
Gradient Noise-Independent Learning Error [25.15075119957447]
分散ネットワーク上でのビザンチン-ロバスト最適化について検討し、各エージェントが近隣のエージェントと定期的に通信して局所モデルを交換し、勾配降下(SGD)により独自の局所モデルを更新する。
このような手法の性能は、最適化プロセス中に逆向きに実行される未知数のビザンチンエージェントに影響される。
論文 参考訳(メタデータ) (2023-08-10T02:14:23Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning [0.0]
深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。
準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T20:53:58Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Accelerated Almost-Sure Convergence Rates for Nonconvex Stochastic
Gradient Descent using Stochastic Learning Rates [0.0]
本稿では、グラディエント・ダイアンスの勾配空間収束率のほぼ全周収束率を用いて、大規模最適化問題を解く。
特に、その学習速度は乗算学習率を備えている。
論文 参考訳(メタデータ) (2021-10-25T04:27:35Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。