論文の概要: On Double Descent in Reinforcement Learning with LSTD and Random
Features
- arxiv url: http://arxiv.org/abs/2310.05518v2
- Date: Fri, 20 Oct 2023 09:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 02:35:47.179567
- Title: On Double Descent in Reinforcement Learning with LSTD and Random
Features
- Title(参考訳): LSTDとランダム特徴を用いた強化学習における二重明度について
- Authors: David Brellmann, Elo\"ise Berthier, David Filliat and Goran Frehse
- Abstract要約: 時間差分法(TD)アルゴリズムは深層強化学習(RL)において広く用いられている
本稿では,ネットワークサイズと$l$-regularizationが性能に与える影響を理論的に分析する。
- 参考スコア(独自算出の注目度): 1.5873758872998507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Difference (TD) algorithms are widely used in Deep Reinforcement
Learning (RL). Their performance is heavily influenced by the size of the
neural network. While in supervised learning, the regime of
over-parameterization and its benefits are well understood, the situation in RL
is much less clear. In this paper, we present a theoretical analysis of the
influence of network size and $l_2$-regularization on performance. We identify
the ratio between the number of parameters and the number of visited states as
a crucial factor and define over-parameterization as the regime when it is
larger than one. Furthermore, we observe a double descent phenomenon, i.e., a
sudden drop in performance around the parameter/state ratio of one. Leveraging
random features and the lazy training regime, we study the regularized
Least-Square Temporal Difference (LSTD) algorithm in an asymptotic regime, as
both the number of parameters and states go to infinity, maintaining a constant
ratio. We derive deterministic limits of both the empirical and the true
Mean-Square Bellman Error (MSBE) that feature correction terms responsible for
the double-descent. Correction terms vanish when the $l_2$-regularization is
increased or the number of unvisited states goes to zero. Numerical experiments
with synthetic and small real-world environments closely match the theoretical
predictions.
- Abstract(参考訳): 時間差分法(TD)アルゴリズムは深層強化学習(RL)において広く用いられている。
その性能はニューラルネットワークのサイズに大きく影響されている。
教師付き学習では、過度パラメータ化の体制とその利点はよく理解されているが、RLの状況は明らかになっていない。
本稿では,ネットワークサイズと$l_2$-regularizationが性能に与える影響を理論的に分析する。
パラメータ数と訪問状態数との比率を重要な要因として同定し,1以上の場合の過剰パラメータ化をレジームとして定義する。
さらに,二重降下現象,すなわち1のパラメータ/状態比付近で突然性能が低下する現象を観測した。
ランダムな特徴と遅延学習体制を生かし、パラメータ数と状態が無限に近づき、一定比を維持するため、漸近的条件下でのLSTD(Last-Square Temporal difference)アルゴリズムについて検討する。
経験的および真の平均二乗ベルマン誤差 (MSBE) の定式化限界を導出し, 二重発色の原因となる補正項を特徴付ける。
補正項は、$l_2$-レギュライゼーションが増加したり、見返りのない状態がゼロになったときに消滅する。
合成環境と小さな実環境における数値実験は、理論的な予測と密接に一致する。
関連論文リスト
- A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - Understanding Square Loss in Training Overparametrized Neural Network
Classifiers [31.319145959402462]
過度にパラメータ化されたニューラルネットワークでどのように機能するかを体系的に検討することにより、分類における二乗損失の理論的理解に寄与する。
クラスが分離可能か否かに応じて2つのケースを考慮する。一般的な非分離可能の場合、誤分類率と校正誤差の両方について、高速収束率が確立される。
結果として得られるマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。
論文 参考訳(メタデータ) (2021-12-07T12:12:30Z) - Neural Estimation of Statistical Divergences [24.78742908726579]
ニューラルネットワーク(NN)による経験的変動形態のパラメトリゼーションによる統計的発散推定の一手法
特に、近似と経験的推定という2つのエラー源の間には、根本的なトレードオフがある。
NN成長速度がわずかに異なる神経推定器は、最小値の最適値に近づき、パラメトリック収束率を対数因子まで達成できることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:42:44Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。