論文の概要: The Generalization Error of Stochastic Mirror Descent on
Over-Parametrized Linear Models
- arxiv url: http://arxiv.org/abs/2302.09433v1
- Date: Sat, 18 Feb 2023 22:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:37:22.675701
- Title: The Generalization Error of Stochastic Mirror Descent on
Over-Parametrized Linear Models
- Title(参考訳): 過パラメータ線形モデルにおける確率鏡の一般化誤差
- Authors: Danil Akhtiamov, Babak Hassibi
- Abstract要約: ディープネットワークは、目に見えないデータにうまく一般化することが知られている。
正規化特性は「良い」性質を持つ補間解が見つかることを保証している。
理論を検証し、2つのデータモデルを導入するシミュレーション結果を提案する。
- 参考スコア(独自算出の注目度): 37.6314945221565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite being highly over-parametrized, and having the ability to fully
interpolate the training data, deep networks are known to generalize well to
unseen data. It is now understood that part of the reason for this is that the
training algorithms used have certain implicit regularization properties that
ensure interpolating solutions with "good" properties are found. This is best
understood in linear over-parametrized models where it has been shown that the
celebrated stochastic gradient descent (SGD) algorithm finds an interpolating
solution that is closest in Euclidean distance to the initial weight vector.
Different regularizers, replacing Euclidean distance with Bregman divergence,
can be obtained if we replace SGD with stochastic mirror descent (SMD).
Empirical observations have shown that in the deep network setting, SMD
achieves a generalization performance that is different from that of SGD (and
which depends on the choice of SMD's potential function. In an attempt to begin
to understand this behavior, we obtain the generalization error of SMD for
over-parametrized linear models for a binary classification problem where the
two classes are drawn from a Gaussian mixture model. We present simulation
results that validate the theory and, in particular, introduce two data models,
one for which SMD with an $\ell_2$ regularizer (i.e., SGD) outperforms SMD with
an $\ell_1$ regularizer, and one for which the reverse happens.
- Abstract(参考訳): 過度にパラメトリ化され、トレーニングデータを完全に補間する能力があるにもかかわらず、ディープネットワークは見えないデータにうまく一般化することが知られている。
この理由の1つは、使用するトレーニングアルゴリズムが特定の暗黙の正規化特性を持ち、「良い」性質の補間解が見つかることであると理解されている。
これは、有名な確率勾配降下法(SGD)アルゴリズムがユークリッド距離から初期重みベクトルに最も近い補間解を見つけることが示されている線形過パラメータ化モデルでよく理解されている。
ユークリッド距離をブレグマン発散に置き換える異なる正則化器は、SGDを確率ミラー降下(SMD)に置き換えれば得られる。
実験的な観察により、深層ネットワーク環境では、smdはsgdと異なる一般化性能(smdのポテンシャル関数の選択に依存する)を達成することが示されている。
この振る舞いを理解するために、ガウス混合モデルから2つのクラスが引き出される二項分類問題に対する過度パラメータ化線形モデルに対するSMDの一般化誤差を求める。
この理論を検証し、特に、SMDが$\ell_2$正則化器(SGD)で、SMDが$\ell_1$正則化器で、逆が生じる2つのデータモデルを導入するシミュレーション結果を示す。
関連論文リスト
- Variational Laplace Autoencoders [53.08170674326728]
変分オートエンコーダは、遅延変数の後部を近似するために、償却推論モデルを用いる。
完全分解ガウス仮定の限定的後部表現性に対処する新しい手法を提案する。
また、深部生成モデルのトレーニングのための変分ラプラスオートエンコーダ(VLAE)という一般的なフレームワークも提示する。
論文 参考訳(メタデータ) (2022-11-30T18:59:27Z) - Stochastic Mirror Descent in Average Ensemble Models [38.38572705720122]
ミラー降下 (SMD) はトレーニングアルゴリズムの一般的なクラスであり、特別な場合として、祝い勾配降下 (SGD) を含む。
本稿では,平均場アンサンブルモデルにおけるミラーポテンシャルアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2022-10-27T11:04:00Z) - uGLAD: Sparse graph recovery by optimizing deep unrolled networks [11.48281545083889]
深層ネットワークを最適化してスパースグラフ復元を行う新しい手法を提案する。
我々のモデルであるuGLADは、最先端モデルGLADを教師なし設定に構築し、拡張します。
我々は, 遺伝子調節ネットワークから生成した合成ガウスデータ, 非ガウスデータを用いて, モデル解析を行い, 嫌気性消化の事例研究を行った。
論文 参考訳(メタデータ) (2022-05-23T20:20:27Z) - Implicit Regularization Properties of Variance Reduced Stochastic Mirror
Descent [7.00422423634143]
離散VRSMD推定器列は線形回帰において最小ミラー補間子に収束することを示す。
我々は、真のモデルがスパースである場合に設定したモデル推定精度を導出する。
論文 参考訳(メタデータ) (2022-04-29T19:37:24Z) - Explicit Regularization via Regularizer Mirror Descent [32.0512015286512]
本稿では,正則化を用いたディープニューラルネットワーク(DNN)のトレーニング手法を提案する。
RMDはトレーニングデータを同時に補間し、重みの潜在的な機能を最小化する。
以上の結果から,RMDの性能は,勾配降下 (SGD) と重量減衰の両方よりも著しく良好であることが示唆された。
論文 参考訳(メタデータ) (2022-02-22T10:21:44Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。