論文の概要: Bridging the Gap Between Target Networks and Functional Regularization
- arxiv url: http://arxiv.org/abs/2106.02613v4
- Date: Thu, 7 Sep 2023 15:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 18:26:18.662657
- Title: Bridging the Gap Between Target Networks and Functional Regularization
- Title(参考訳): ターゲットネットワーク間のギャップと機能正規化の橋渡し
- Authors: Alexandre Pich\'e, Valentin Thomas, Rafael Pardinas, Joseph Marino,
Gian Maria Marconi, Christopher Pal, Mohammad Emtiyaz Khan
- Abstract要約: ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。
本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。
この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 61.051716530459586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bootstrapping is behind much of the successes of deep Reinforcement Learning.
However, learning the value function via bootstrapping often leads to unstable
training due to fast-changing target values. Target Networks are employed to
stabilize training by using an additional set of lagging parameters to estimate
the target values. Despite the popularity of Target Networks, their effect on
the optimization is still misunderstood. In this work, we show that they act as
an implicit regularizer which can be beneficial in some cases, but also have
disadvantages such as being inflexible and can result in instabilities, even
when vanilla TD(0) converges. To overcome these issues, we propose an explicit
Functional Regularization alternative that is flexible and a convex regularizer
in function space and we theoretically study its convergence. We conduct an
experimental study across a range of environments, discount factors, and
off-policiness data collections to investigate the effectiveness of the
regularization induced by Target Networks and Functional Regularization in
terms of performance, accuracy, and stability. Our findings emphasize that
Functional Regularization can be used as a drop-in replacement for Target
Networks and result in performance improvement. Furthermore, adjusting both the
regularization weight and the network update period in Functional
Regularization can result in further performance improvements compared to
solely adjusting the network update period as typically done with Target
Networks. Our approach also enhances the ability to networks to recover
accurate $Q$-values.
- Abstract(参考訳): ブートストラップは、深層強化学習の成功の背後にある。
しかしながら、ブートストラップによる値関数の学習は、目標値の高速変更による不安定なトレーニングにつながることが多い。
ターゲットネットワークは、目標値を推定するために、追加の遅延パラメータセットを使用してトレーニングを安定化するために使用される。
ターゲットネットワークの人気にもかかわらず、最適化に対する効果はまだ誤解されている。
本研究では,バニラ TD(0) が収束しても,非フレキシブルであり,不安定性をもたらすような欠点を持つような暗黙の正則化器として作用することを示す。
これらの問題を克服するために,関数空間におけるフレキシブルかつ凸正則化可能な明示的な関数正則化代替案を提案し,その収束を理論的に検討する。
対象ネットワークと機能正規化による正規化の有効性を,性能,正確性,安定性の観点から検討するため,様々な環境,割引要因,非政治データ収集を実験的に検討した。
その結果,機能正規化はTarget Networksの代替として利用でき,結果として性能が向上することがわかった。
さらに、正規化重みと機能正規化におけるネットワーク更新期間の調整は、通常Target Networksで行われているように、ネットワーク更新期間を単に調整するよりも、さらなるパフォーマンス向上をもたらす可能性がある。
また,提案手法により,ネットワークが正確な$Q$-valueを復元する能力も向上する。
関連論文リスト
- Continual Learning via Sequential Function-Space Variational Inference [65.96686740015902]
連続学習を逐次関数空間変動推論として定式化した目的を提案する。
ニューラルネットワークの予測を直接正規化する目的と比較して、提案した目的はより柔軟な変動分布を可能にする。
タスクシーケンスの範囲で、逐次関数空間変動推論によってトレーニングされたニューラルネットワークは、関連する手法でトレーニングされたネットワークよりも予測精度が良いことを実証した。
論文 参考訳(メタデータ) (2023-12-28T18:44:32Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z) - Why Target Networks Stabilise Temporal Difference Methods [38.35578010611503]
そこで本研究では, 厳密な規則性条件と目標ネットワーク更新頻度の調整により, 収束が保証されることを示す。
我々は,TD更新のヤコビアンにおいて,ターゲットネットワークの利用が条件の悪さの影響を軽減することができると結論付けた。
論文 参考訳(メタデータ) (2023-02-24T09:46:00Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - Rethinking Value Function Learning for Generalization in Reinforcement
Learning [11.516147824168732]
我々は、観測一般化性能を向上させるために、複数の訓練環境においてRLエージェントを訓練することの課題に焦点をあてる。
マルチ環境設定における価値ネットワークは、従来の単一環境設定よりもトレーニングデータの過度な適合を最適化し難い。
本稿では,政策ネットワークよりもトレーニングデータが多い値ネットワークを少ない頻度で最適化することにより,暗黙的に評価値のペナルティ化を行うDelayed-Critic Policy Gradient (DCPG)を提案する。
論文 参考訳(メタデータ) (2022-10-18T16:17:47Z) - Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - Exploiting the Full Capacity of Deep Neural Networks while Avoiding
Overfitting by Targeted Sparsity Regularization [1.3764085113103217]
オーバーフィッティングは、比較的小さなデータセットでディープニューラルネットワークをトレーニングする際の最も一般的な問題の1つである。
オーバーフィッティング対策として, 新規な対象空間可視化と正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-02-21T11:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。