論文の概要: Beyond Target Networks: Improving Deep $Q$-learning with Functional
Regularization
- arxiv url: http://arxiv.org/abs/2106.02613v2
- Date: Mon, 7 Jun 2021 20:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 11:48:15.518282
- Title: Beyond Target Networks: Improving Deep $Q$-learning with Functional
Regularization
- Title(参考訳): ターゲットネットワークを超えて:関数正規化による深い$q$-learningの改善
- Authors: Alexandre Pich\'e, Joseph Marino, Gian Maria Marconi, Christopher Pal,
Mohammad Emtiyaz Khan
- Abstract要約: 本稿では,機能正規化に基づく代替トレーニング手法を提案する。
対象ネットワークとは違って,本手法では,目標である$Q$-valueを推定するために,最新のパラメータを使用する。
そこで本研究では,Atariおよびシミュレートされたロボット環境におけるサンプル効率と性能の実証的な改善について述べる。
- 参考スコア(独自算出の注目度): 79.19086935624345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Target networks are at the core of recent success in Reinforcement Learning.
They stabilize the training by using old parameters to estimate the $Q$-values,
but this also limits the propagation of newly-encountered rewards which could
ultimately slow down the training. In this work, we propose an alternative
training method based on functional regularization which does not have this
deficiency. Unlike target networks, our method uses up-to-date parameters to
estimate the target $Q$-values, thereby speeding up training while maintaining
stability. Surprisingly, in some cases, we can show that target networks are a
special, restricted type of functional regularizers. Using this approach, we
show empirical improvements in sample efficiency and performance across a range
of Atari and simulated robotics environments.
- Abstract(参考訳): ターゲットネットワークは、最近の強化学習の成功の核心にある。
q$-valuesを見積もるために古いパラメータを使用してトレーニングを安定化するが、これはまた、トレーニングを遅くする可能性のある、新たに登録された報酬の伝播を制限する。
本研究では,この不足を伴わない機能正規化に基づく代替訓練法を提案する。
ターゲットネットワークと異なり,最新のパラメータを用いて目標の$q$値を推定し,安定性を維持しながらトレーニングを高速化する。
驚くべきことに、いくつかのケースでは、ターゲットネットワークが特殊で制限された機能正規化器であることを示すことができる。
このアプローチを用いて,Atariおよびシミュレートされたロボット環境におけるサンプル効率と性能を実証的に改善した。
関連論文リスト
- Continual Learning via Sequential Function-Space Variational Inference [65.96686740015902]
連続学習を逐次関数空間変動推論として定式化した目的を提案する。
ニューラルネットワークの予測を直接正規化する目的と比較して、提案した目的はより柔軟な変動分布を可能にする。
タスクシーケンスの範囲で、逐次関数空間変動推論によってトレーニングされたニューラルネットワークは、関連する手法でトレーニングされたネットワークよりも予測精度が良いことを実証した。
論文 参考訳(メタデータ) (2023-12-28T18:44:32Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z) - Why Target Networks Stabilise Temporal Difference Methods [38.35578010611503]
そこで本研究では, 厳密な規則性条件と目標ネットワーク更新頻度の調整により, 収束が保証されることを示す。
我々は,TD更新のヤコビアンにおいて,ターゲットネットワークの利用が条件の悪さの影響を軽減することができると結論付けた。
論文 参考訳(メタデータ) (2023-02-24T09:46:00Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - Rethinking Value Function Learning for Generalization in Reinforcement
Learning [11.516147824168732]
我々は、観測一般化性能を向上させるために、複数の訓練環境においてRLエージェントを訓練することの課題に焦点をあてる。
マルチ環境設定における価値ネットワークは、従来の単一環境設定よりもトレーニングデータの過度な適合を最適化し難い。
本稿では,政策ネットワークよりもトレーニングデータが多い値ネットワークを少ない頻度で最適化することにより,暗黙的に評価値のペナルティ化を行うDelayed-Critic Policy Gradient (DCPG)を提案する。
論文 参考訳(メタデータ) (2022-10-18T16:17:47Z) - Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - Exploiting the Full Capacity of Deep Neural Networks while Avoiding
Overfitting by Targeted Sparsity Regularization [1.3764085113103217]
オーバーフィッティングは、比較的小さなデータセットでディープニューラルネットワークをトレーニングする際の最も一般的な問題の1つである。
オーバーフィッティング対策として, 新規な対象空間可視化と正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-02-21T11:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。