論文の概要: Bridging the Gap Between Target Networks and Functional Regularization
- arxiv url: http://arxiv.org/abs/2210.12282v2
- Date: Wed, 3 Jan 2024 17:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 17:18:03.729519
- Title: Bridging the Gap Between Target Networks and Functional Regularization
- Title(参考訳): ターゲットネットワーク間のギャップと機能正規化の橋渡し
- Authors: Alexandre Piche and Valentin Thomas and Joseph Marino and Rafael
Pardinas and Gian Maria Marconi and Christopher Pal and Mohammad Emtiyaz Khan
- Abstract要約: 関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
- 参考スコア(独自算出の注目度): 61.051716530459586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bootstrapping is behind much of the successes of Deep Reinforcement Learning.
However, learning the value function via bootstrapping often leads to unstable
training due to fast-changing target values. Target Networks are employed to
stabilize training by using an additional set of lagging parameters to estimate
the target values. Despite the popularity of Target Networks, their effect on
the optimization is still misunderstood. In this work, we show that they act as
an implicit regularizer. This regularizer has disadvantages such as being
inflexible and non convex. To overcome these issues, we propose an explicit
Functional Regularization that is a convex regularizer in function space and
can easily be tuned. We analyze the convergence of our method theoretically and
empirically demonstrate that replacing Target Networks with the more
theoretically grounded Functional Regularization approach leads to better
sample efficiency and performance improvements.
- Abstract(参考訳): ブートストラップは、Deep Reinforcement Learningの成功の背後にあります。
しかしながら、ブートストラップによる値関数の学習は、目標値の高速変更による不安定なトレーニングにつながることが多い。
ターゲットネットワークは、目標値を推定するために、追加の遅延パラメータセットを使用してトレーニングを安定化するために使用される。
ターゲットネットワークの人気にもかかわらず、最適化に対する効果はまだ誤解されている。
本研究では,暗黙の正規化として作用することを示す。
この正則化器は、非フレキシブルかつ非凸であるなどの欠点がある。
これらの問題を克服するために,関数空間における凸正規化器である明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることで,サンプル効率と性能が向上することを示した。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Why Target Networks Stabilise Temporal Difference Methods [38.35578010611503]
そこで本研究では, 厳密な規則性条件と目標ネットワーク更新頻度の調整により, 収束が保証されることを示す。
我々は,TD更新のヤコビアンにおいて,ターゲットネットワークの利用が条件の悪さの影響を軽減することができると結論付けた。
論文 参考訳(メタデータ) (2023-02-24T09:46:00Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。
本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。
この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-04T17:21:07Z) - Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。