論文の概要: DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization
- arxiv url: http://arxiv.org/abs/2112.04716v1
- Date: Thu, 9 Dec 2021 06:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 21:28:22.317379
- Title: DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization
- Title(参考訳): DR3: 明示的な規則化を必要とする価値に基づく深層強化学習
- Authors: Aviral Kumar, Rishabh Agarwal, Tengyu Ma, Aaron Courville, George
Tucker, Sergey Levine
- Abstract要約: 教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。
我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。
我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
- 参考スコア(独自算出の注目度): 125.5448293005647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite overparameterization, deep networks trained via supervised learning
are easy to optimize and exhibit excellent generalization. One hypothesis to
explain this is that overparameterized deep networks enjoy the benefits of
implicit regularization induced by stochastic gradient descent, which favors
parsimonious solutions that generalize well on test inputs. It is reasonable to
surmise that deep reinforcement learning (RL) methods could also benefit from
this effect. In this paper, we discuss how the implicit regularization effect
of SGD seen in supervised learning could in fact be harmful in the offline deep
RL setting, leading to poor generalization and degenerate feature
representations. Our theoretical analysis shows that when existing models of
implicit regularization are applied to temporal difference learning, the
resulting derived regularizer favors degenerate solutions with excessive
"aliasing", in stark contrast to the supervised learning case. We back up these
findings empirically, showing that feature representations learned by a deep
network value function trained via bootstrapping can indeed become degenerate,
aliasing the representations for state-action pairs that appear on either side
of the Bellman backup. To address this issue, we derive the form of this
implicit regularizer and, inspired by this derivation, propose a simple and
effective explicit regularizer, called DR3, that counteracts the undesirable
effects of this implicit regularizer. When combined with existing offline RL
methods, DR3 substantially improves performance and stability, alleviating
unlearning in Atari 2600 games, D4RL domains and robotic manipulation from
images.
- Abstract(参考訳): 過剰パラメータ化にもかかわらず、教師付き学習で訓練されたディープネットワークは最適化が容易であり、優れた一般化を示す。
これを説明する一つの仮説は、過パラメータのディープネットワークは確率的勾配降下によって引き起こされる暗黙の正規化の利点を享受しているということである。
深層強化学習(RL)法もこの効果の恩恵を受けると推測することは妥当である。
本稿では,教師付き学習で見られるSGDの暗黙的な正規化効果が,オフラインの深層RL設定において有害になり,一般化の低下や特徴表現の退化につながる可能性について論じる。
本理論解析により, 時間的差分学習に既存のモデルを適用した場合, 導出正規化器は, 教師あり学習とは対照的に, 過剰な「aliasing」を伴う縮退解を好むことが示された。
我々はこれらの発見を実証的に裏付け、ブートストラップによって訓練されたディープネットワーク値関数によって学習された特徴表現が実際に縮退し、ベルマンバックアップの両側に現れる状態-アクションペアの表現をエイリアスすることを示した。
この問題に対処するため、この暗黙正則化器の形式を導出し、この導出にインスパイアされて、単純で効果的な明示正則化器DR3を提案し、この暗黙正則化器の望ましくない効果に対処する。
既存のオフラインRLメソッドと組み合わせることで、DR3はパフォーマンスと安定性を大幅に改善し、Atari 2600ゲーム、D4RLドメイン、画像からのロボット操作を緩和する。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - IMEX-Reg: Implicit-Explicit Regularization in the Function Space for Continual Learning [17.236861687708096]
連続学習(CL)は、これまで獲得した知識の破滅的な忘れが原因で、ディープニューラルネットワークの長年にわたる課題の1つである。
低バッファ状態下でのCLにおける経験リハーサルの一般化性能を改善するために,強い帰納バイアスを用いて人間がどのように学習するかに着想を得たIMEX-Regを提案する。
論文 参考訳(メタデータ) (2024-04-28T12:25:09Z) - On Reducing Undesirable Behavior in Deep Reinforcement Learning Models [0.0]
本稿では,DRLベースのソフトウェアにおいて望ましくない動作を大幅に削減することを目的とした,新しいフレームワークを提案する。
我々のフレームワークは、エンジニアにそのような望ましくない振る舞いの理解可能な特徴を提供するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-06T09:47:36Z) - An Empirical Study of Implicit Regularization in Deep Offline RL [44.62587507925864]
3つのオフラインRLデータセットにおける有効ランクと性能の関係について検討する。
暗黙の正規化が学習力学に与える影響を説明する学習の3つの段階を同定する。
論文 参考訳(メタデータ) (2022-07-05T15:07:31Z) - Stabilizing Off-Policy Deep Reinforcement Learning from Pixels [9.998078491879145]
ピクセル観測から学んだオフ政治強化は、非常に不安定である。
これらの不安定性は,畳み込みエンコーダと低次報酬を用いた時間差学習によって生じることを示す。
本稿では, エンコーダの勾配に適応的な正規化を提供する手法であるA-LIXを提案する。
論文 参考訳(メタデータ) (2022-07-03T08:52:40Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Implicit Under-Parameterization Inhibits Data-Efficient Deep
Reinforcement Learning [97.28695683236981]
さらなる勾配更新により、現在の値ネットワークの表現性が低下する。
AtariとGymのベンチマークでは、オフラインとオンラインのRL設定の両方でこの現象を実証する。
論文 参考訳(メタデータ) (2020-10-27T17:55:16Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。