論文の概要: When Does Preconditioning Help or Hurt Generalization?
- arxiv url: http://arxiv.org/abs/2006.10732v4
- Date: Tue, 8 Dec 2020 19:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 12:55:53.606641
- Title: When Does Preconditioning Help or Hurt Generalization?
- Title(参考訳): プレコンディショニングはいつ役に立つのか?
- Authors: Shun-ichi Amari, Jimmy Ba, Roger Grosse, Xuechen Li, Atsushi Nitanda,
Taiji Suzuki, Denny Wu, Ji Xu
- Abstract要約: 本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
- 参考スコア(独自算出の注目度): 74.25170084614098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While second order optimizers such as natural gradient descent (NGD) often
speed up optimization, their effect on generalization has been called into
question. This work presents a more nuanced view on how the \textit{implicit
bias} of first- and second-order methods affects the comparison of
generalization properties. We provide an exact asymptotic bias-variance
decomposition of the generalization error of overparameterized ridgeless
regression under a general class of preconditioner $\boldsymbol{P}$, and
consider the inverse population Fisher information matrix (used in NGD) as a
particular example. We determine the optimal $\boldsymbol{P}$ for both the bias
and variance, and find that the relative generalization performance of
different optimizers depends on the label noise and the "shape" of the signal
(true parameters): when the labels are noisy, the model is misspecified, or the
signal is misaligned with the features, NGD can achieve lower risk; conversely,
GD generalizes better than NGD under clean labels, a well-specified model, or
aligned signal. Based on this analysis, we discuss several approaches to manage
the bias-variance tradeoff, and the potential benefit of interpolating between
GD and NGD. We then extend our analysis to regression in the reproducing kernel
Hilbert space and demonstrate that preconditioned GD can decrease the
population risk faster than GD. Lastly, we empirically compare the
generalization error of first- and second-order optimizers in neural network
experiments, and observe robust trends matching our theoretical analysis.
- Abstract(参考訳): 自然勾配降下(NGD)のような二階最適化器はしばしば最適化を高速化するが、一般化に対する効果は疑問視されている。
本研究は、一階および二階法の \textit{implicit bias} が一般化特性の比較にどのように影響するかについてより微妙な見解を示す。
プレコンディショナー $\boldsymbol{p}$ の一般クラスの下での過パラメータリッジレス回帰の一般化誤差の正確な漸近偏分散分解を行い、逆集団フィッシャー情報行列(ngdで使われる)を具体例とする。
バイアスと分散の両方に対して最適な$\boldsymbol{p}$を決定し、異なるオプティマイザの相対的一般化性能がラベルノイズと信号の「形」に依存すること(真のパラメータ): ラベルがノイズである場合、モデルが不特定化されているか、あるいは信号が特徴と不一致している場合、ngdはより低いリスクを達成できる。
この分析に基づいて,バイアス分散トレードオフを管理するためのいくつかのアプローチと,GDとNGDを補間する可能性について論じる。
次に、再生核ヒルベルト空間における回帰分析を拡張し、事前条件付きgdがgdよりも早く人口リスクを低減できることを示す。
最後に、ニューラルネットワーク実験における一階及び二階最適化器の一般化誤差を実証的に比較し、理論解析と一致する堅牢な傾向を観察する。
関連論文リスト
- Estimating Generalization Performance Along the Trajectory of Proximal SGD in Robust Regression [4.150180443030652]
本稿では,反復アルゴリズムの軌道に沿った反復の一般化誤差を正確に追跡する推定器を提案する。
結果は、ハマー回帰(英語版)、擬ハマー回帰(英語版)、および非滑らかな正則化子を持つそれらのペナル化変種(英語版)など、いくつかの例を通して説明される。
論文 参考訳(メタデータ) (2024-10-03T16:13:42Z) - Risk Bounds of Accelerated SGD for Overparameterized Linear Regression [75.27846230182885]
加速度勾配降下(ASGD)は、深層学習におけるワークホースである。
既存の最適化理論は、ASGDのより高速な収束を説明することしかできないが、より優れた一般化を説明することはできない。
論文 参考訳(メタデータ) (2023-11-23T23:02:10Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。