論文の概要: More is Less: Inducing Sparsity via Overparameterization
- arxiv url: http://arxiv.org/abs/2112.11027v5
- Date: Wed, 10 May 2023 08:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 18:06:01.079967
- Title: More is Less: Inducing Sparsity via Overparameterization
- Title(参考訳): more is less: 過剰パラメータによるスパーシティの誘発
- Authors: Hung-Hsu Chou, Johannes Maly, Holger Rauhut
- Abstract要約: ディープラーニングでは、ニューラルネットワークを過度にパラメータ化する、すなわち、トレーニングサンプルよりも多くのパラメータを使用することが一般的である。
驚くほど驚くべきことに、(確率的な)勾配勾配によるニューラルネットワークを一般化すると、それは非常にうまく行く。
我々の証明は、流れのあるブレグマンの発散を分析することに依存している。
- 参考スコア(独自算出の注目度): 2.885175627590247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning it is common to overparameterize neural networks, that is,
to use more parameters than training samples. Quite surprisingly training the
neural network via (stochastic) gradient descent leads to models that
generalize very well, while classical statistics would suggest overfitting. In
order to gain understanding of this implicit bias phenomenon we study the
special case of sparse recovery (compressed sensing) which is of interest on
its own. More precisely, in order to reconstruct a vector from underdetermined
linear measurements, we introduce a corresponding overparameterized square loss
functional, where the vector to be reconstructed is deeply factorized into
several vectors. We show that, if there exists an exact solution, vanilla
gradient flow for the overparameterized loss functional converges to a good
approximation of the solution of minimal $\ell_1$-norm. The latter is
well-known to promote sparse solutions. As a by-product, our results
significantly improve the sample complexity for compressed sensing via gradient
flow/descent on overparameterized models derived in previous works. The theory
accurately predicts the recovery rate in numerical experiments. Our proof
relies on analyzing a certain Bregman divergence of the flow. This bypasses the
obstacles caused by non-convexity and should be of independent interest.
- Abstract(参考訳): ディープラーニングでは、トレーニングサンプルよりも多くのパラメータを使用するニューラルネットワークの過剰パラメータ化が一般的です。
確率的な)勾配降下によるニューラルネットワークのトレーニングは、非常によく一般化されるモデルにつながり、古典的な統計では過剰フィットが示唆される。
この暗黙のバイアス現象を理解するために,本研究では,単独で関心のあるスパースリカバリ(圧縮センシング)の特別な事例について検討する。
より正確には、ベクトルを過度に決定された線形測度から再構成するために、対応する過パラメータ化二乗損失関数を導入し、再構成するベクトルをいくつかのベクトルに深く分解する。
正確な解が存在する場合、過パラメータ化された損失関数に対するバニラ勾配流は、最小の$\ell_1$-normの解のよい近似に収束する。
後者はスパースソリューションを促進することでよく知られている。
副産物として, 先行研究から得られた過パラメータモデルにおいて, 勾配流/減光による圧縮センシングの試料複雑性を著しく改善した。
この理論は数値実験の回収率を正確に予測する。
我々の証明は、流れのあるブレグマンの発散を分析することに依存している。
これは非凸性による障害を回避し、独立した関心を持つべきである。
関連論文リスト
- Refined Risk Bounds for Unbounded Losses via Transductive Priors [58.967816314671296]
線形回帰の逐次変分を2乗損失、ヒンジ損失の分類問題、ロジスティック回帰で再検討する。
我々の鍵となるツールは、慎重に選択された導出先を持つ指数重み付けアルゴリズムに基づいている。
論文 参考訳(メタデータ) (2024-10-29T00:01:04Z) - Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。
一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。
サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文 参考訳(メタデータ) (2023-01-29T20:54:03Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Overparameterized ReLU Neural Networks Learn the Simplest Models: Neural
Isometry and Exact Recovery [33.74925020397343]
ディープラーニングは、学習パラメータが極端に多い場合でも、ニューラルネットワークが驚くほどよく一般化されていることを示している。
標準重崩壊正則化をもつ2層ReLUネットワークのトレーニングと一般化特性について考察する。
我々は,ラベルがうるさい場合でも,ReLUネットワークは単純でスパースなモデルを学ぶことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:47:15Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z) - Benign overfitting in ridge regression [0.0]
過度にパラメータ化されたリッジ回帰に対する漸近的でない一般化境界を提供する。
最小あるいは負の正則化が小さい一般化誤差を得るのに十分であるかどうかを同定する。
論文 参考訳(メタデータ) (2020-09-29T20:00:31Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。