論文の概要: An Empirical Study of Implicit Regularization in Deep Offline RL
- arxiv url: http://arxiv.org/abs/2207.02099v1
- Date: Tue, 5 Jul 2022 15:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 17:31:06.356229
- Title: An Empirical Study of Implicit Regularization in Deep Offline RL
- Title(参考訳): 深部オフラインRLにおける入射規則化の実証的研究
- Authors: Caglar Gulcehre, Srivatsan Srinivasan, Jakub Sygnowski, Georg
Ostrovski, Mehrdad Farajtabar, Matt Hoffman, Razvan Pascanu, Arnaud Doucet
- Abstract要約: 我々は,bsuite,Atari,DeepMindの3つのオフラインRLデータセットにおける有効ランクと性能の関係について検討した。
暗黙の正規化が学習力学に与える影響を説明する学習の3つの段階を実証的に同定する。
- 参考スコア(独自算出の注目度): 44.62587507925864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks are the most commonly used function approximators in
offline Reinforcement Learning these days. Prior works have shown that neural
nets trained with TD-learning and gradient descent can exhibit implicit
regularization that can be characterized by under-parameterization of these
networks. Specifically, the rank of the penultimate feature layer, also called
\textit{effective rank}, has been observed to drastically collapse during the
training. In turn, this collapse has been argued to reduce the model's ability
to further adapt in later stages of learning, leading to the diminished final
performance. Such an association between the effective rank and performance
makes effective rank compelling for offline RL, primarily for offline policy
evaluation. In this work, we conduct a careful empirical study on the relation
between effective rank and performance on three offline RL datasets : bsuite,
Atari, and DeepMind lab. We observe that a direct association exists only in
restricted settings and disappears in the more extensive hyperparameter sweeps.
Also, we empirically identify three phases of learning that explain the impact
of implicit regularization on the learning dynamics and found that
bootstrapping alone is insufficient to explain the collapse of the effective
rank. Further, we show that several other factors could confound the
relationship between effective rank and performance and conclude that studying
this association under simplistic assumptions could be highly misleading.
- Abstract(参考訳): 近年、ディープニューラルネットワークはオフライン強化学習において最もよく使われている関数近似器である。
先行研究では、td学習と勾配降下で訓練されたニューラルネットワークは、これらのネットワークの過小パラメータ化によって特徴づけられる暗黙の正規化を示すことが示されている。
特に、ペナルティメート特徴層のランクは \textit{effective rank} とも呼ばれ、トレーニング中に劇的に崩壊することが観測されている。
逆に、この崩壊は学習の後半段階にさらに適応するモデルの能力を減らすために議論され、最終的なパフォーマンスが低下した。
このような効果的なランクとパフォーマンスの関係は、オフラインのrl、主にオフラインのポリシー評価に有効なランクをもたらす。
本研究では,bsuite,Atari,DeepMindの3つのオフラインRLデータセットにおいて,有効ランクと性能の関係について検討した。
直接関連性は制限された設定でのみ存在し、より広範なハイパーパラメータスイープで消失する。
また,暗黙の規則化が学習のダイナミクスに与える影響を説明する3段階の学習を経験的に同定し,ブートストラップだけでは効果的なランクの崩壊を説明することができないことを発見した。
さらに,実効的なランクとパフォーマンスの関係を明らかにする他の要因がいくつかあり得ることを示し,単純化された仮定の下でこの関係を研究することは極めて誤解を招く可能性があると結論づけた。
関連論文リスト
- Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Recurrent Hypernetworks are Surprisingly Strong in Meta-RL [37.80510757630612]
深部強化学習(Deep reinforcement learning, RL)は, サンプル不効率のため, 展開が困難であることが知られている。
Meta-RLは、このサンプルの非効率性に直接対処し、メタトレーニングで関連するタスクの分散が利用できる場合に、数ショットの学習を実行する。
最近の研究は、繰り返しネットワークのような市販のシーケンシャルモデルと合わせて、エンドツーエンドの学習が驚くほど強力なベースラインであることを示唆している。
論文 参考訳(メタデータ) (2023-09-26T14:42:28Z) - DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization [125.5448293005647]
教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。
我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。
我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
論文 参考訳(メタデータ) (2021-12-09T06:01:01Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - The Impact of Activation Sparsity on Overfitting in Convolutional Neural
Networks [1.9424280683610138]
オーバーフィッティングは畳み込みニューラルネットワークのトレーニングにおける基本的な課題の1つです。
本研究では,レイヤワイドアクティベーション対策の導出と可視化を目的としたパープレキシティに基づく空間性定義を提案する。
論文 参考訳(メタデータ) (2021-04-13T12:55:37Z) - Implicit Under-Parameterization Inhibits Data-Efficient Deep
Reinforcement Learning [97.28695683236981]
さらなる勾配更新により、現在の値ネットワークの表現性が低下する。
AtariとGymのベンチマークでは、オフラインとオンラインのRL設定の両方でこの現象を実証する。
論文 参考訳(メタデータ) (2020-10-27T17:55:16Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。