論文の概要: Why Target Networks Stabilise Temporal Difference Methods
- arxiv url: http://arxiv.org/abs/2302.12537v2
- Date: Tue, 30 May 2023 17:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 01:18:19.317538
- Title: Why Target Networks Stabilise Temporal Difference Methods
- Title(参考訳): ターゲットネットワークが時間差を安定化する理由
- Authors: Mattie Fellows, Matthew J. A. Smith, Shimon Whiteson
- Abstract要約: そこで本研究では, 厳密な規則性条件と目標ネットワーク更新頻度の調整により, 収束が保証されることを示す。
我々は,TD更新のヤコビアンにおいて,ターゲットネットワークの利用が条件の悪さの影響を軽減することができると結論付けた。
- 参考スコア(独自算出の注目度): 52.09749632427138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integral to recent successes in deep reinforcement learning has been a class
of temporal difference methods that use infrequently updated target values for
policy evaluation in a Markov Decision Process. Yet a complete theoretical
explanation for the effectiveness of target networks remains elusive. In this
work, we provide an analysis of this popular class of algorithms, to finally
answer the question: `why do target networks stabilise TD learning'? To do so,
we formalise the notion of a partially fitted policy evaluation method, which
describes the use of target networks and bridges the gap between fitted methods
and semigradient temporal difference algorithms. Using this framework we are
able to uniquely characterise the so-called deadly triad - the use of TD
updates with (nonlinear) function approximation and off-policy data - which
often leads to nonconvergent algorithms. This insight leads us to conclude that
the use of target networks can mitigate the effects of poor conditioning in the
Jacobian of the TD update. Instead, we show that under mild regularity
conditions and a well tuned target network update frequency, convergence can be
guaranteed even in the extremely challenging off-policy sampling and nonlinear
function approximation setting.
- Abstract(参考訳): 近年の深層強化学習の成功と一体化して、マルコフ決定過程における政策評価に頻繁に更新された目標値を用いた時間差分法が確立されている。
しかし、ターゲットネットワークの有効性に関する完全な理論的説明は、いまだ解明されていない。
この研究で、我々はこの人気のあるアルゴリズムのクラスを分析し、最後に答える:なぜターゲットネットワークはTD学習を安定化させるのか?
そこで我々は,対象ネットワークの利用を記述し,適合する手法と半次時間差分アルゴリズムとのギャップを埋める,部分的に適合した政策評価法の概念を定式化する。
このフレームワークを使用することで、いわゆるDeadly Triad(非線型)関数近似によるTD更新と、非収束アルゴリズムにつながる外部データ)を特徴付けることができます。
この知見から、ターゲットネットワークの使用は、td更新のヤコビアンにおける条件付けの悪い影響を軽減できると結論付けることができる。
代わりに、穏やかな正規性条件と十分に調整されたターゲットネットワーク更新周波数の下では、非常に困難なオフポリシックサンプリングと非線形関数近似設定においても収束が保証されることを示した。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。
本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。
この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-04T17:21:07Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。