論文の概要: On Generalization of Adaptive Methods for Over-parameterized Linear
Regression
- arxiv url: http://arxiv.org/abs/2011.14066v1
- Date: Sat, 28 Nov 2020 04:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 19:21:28.032848
- Title: On Generalization of Adaptive Methods for Over-parameterized Linear
Regression
- Title(参考訳): 過パラメータ線形回帰に対する適応手法の一般化について
- Authors: Vatsal Shah, Soumya Basu, Anastasios Kyrillidis, Sujay Sanghavi
- Abstract要約: オーバーパラメータ化線形回帰設定における適応手法の性能を特徴付けることを目的としている。
オーバーパラメータ化線形回帰とディープニューラルネットワークに関する実験は、この理論を支持する。
- 参考スコア(独自算出の注目度): 27.156348760303864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over-parameterization and adaptive methods have played a crucial role in the
success of deep learning in the last decade. The widespread use of
over-parameterization has forced us to rethink generalization by bringing forth
new phenomena, such as implicit regularization of optimization algorithms and
double descent with training progression. A series of recent works have started
to shed light on these areas in the quest to understand -- why do neural
networks generalize well? The setting of over-parameterized linear regression
has provided key insights into understanding this mysterious behavior of neural
networks.
In this paper, we aim to characterize the performance of adaptive methods in
the over-parameterized linear regression setting. First, we focus on two
sub-classes of adaptive methods depending on their generalization performance.
For the first class of adaptive methods, the parameter vector remains in the
span of the data and converges to the minimum norm solution like gradient
descent (GD). On the other hand, for the second class of adaptive methods, the
gradient rotation caused by the pre-conditioner matrix results in an in-span
component of the parameter vector that converges to the minimum norm solution
and the out-of-span component that saturates. Our experiments on
over-parameterized linear regression and deep neural networks support this
theory.
- Abstract(参考訳): オーバーパラメータ化と適応的手法は、過去10年間のディープラーニングの成功に重要な役割を果たしてきた。
過剰パラメータ化の広範利用により、最適化アルゴリズムの暗黙的正規化やトレーニング進行を伴う二重降下といった新しい現象をもたらすことによって、一般化を再考せざるを得なくなった。
ニューラルネットワークが一般化する理由を理解するために、最近の一連の研究がこれらの領域に光を当て始めている。
過度にパラメータ化された線形回帰の設定は、ニューラルネットワークのこの神秘的な振る舞いを理解する上で重要な洞察を与えてきた。
本稿では,過パラメータ線形回帰設定における適応法の性能を特徴付けることを目的とする。
まず,適応的手法の2つのサブクラスに一般化性能に応じて焦点をあてる。
適応法の最初のクラスでは、パラメータベクトルはデータのスパンに留まり、勾配降下(GD)のような最小ノルム解に収束する。
一方、第2の適応法では、プリコンディショナー行列による勾配回転は、最小ノルム解に収束するパラメータベクトルのインスパン成分と飽和するアウト・オブ・スパン成分をもたらす。
過パラメータ線形回帰とディープニューラルネットワークによる実験はこの理論を裏付けるものである。
関連論文リスト
- Gradient-based bilevel optimization for multi-penalty Ridge regression
through matrix differential calculus [0.46040036610482665]
我々は,l2-正則化を用いた線形回帰問題に対する勾配に基づくアプローチを導入する。
提案手法はLASSO, Ridge, Elastic Netレグレッションよりも優れていることを示す。
勾配の解析は、自動微分と比較して計算時間の観点からより効率的であることが証明されている。
論文 参考訳(メタデータ) (2023-11-23T20:03:51Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Hebbian learning inspired estimation of the linear regression parameters
from queries [18.374824005225186]
本稿では,線形回帰モデルにおける回帰ベクトルを復元するために,このヘビアン学習規則のバリエーションについて検討する。
我々は,このヘビアン学習規則が,データとは独立にクエリを選択する非適応的手法よりもはるかに高速に実行可能であることを証明した。
論文 参考訳(メタデータ) (2023-09-26T19:00:32Z) - Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。
一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。
サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文 参考訳(メタデータ) (2023-01-29T20:54:03Z) - Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。
本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T13:02:41Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - To Each Optimizer a Norm, To Each Norm its Generalization [31.682969645989512]
過度なパラメータ化と過度なパラメータ化の条件下でのトレーニングデータを補間する線形モデルに対する最適化手法の暗黙的な正規化について検討する。
我々は、標準最大値 l2-margin への収束解析は任意であり、データによって誘導されるノルムの最小化がより良い一般化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-11T21:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。