論文の概要: The Asymmetric Maximum Margin Bias of Quasi-Homogeneous Neural Networks
- arxiv url: http://arxiv.org/abs/2210.03820v1
- Date: Fri, 7 Oct 2022 21:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 15:16:07.882123
- Title: The Asymmetric Maximum Margin Bias of Quasi-Homogeneous Neural Networks
- Title(参考訳): 準均質ニューラルネットワークの非対称最大マージンバイアス
- Authors: Daniel Kunin, Atsushi Yamamura, Chao Ma, Surya Ganguli
- Abstract要約: 準均質モデルのクラスを導入し、同質な活性化を伴うほぼ全てのニューラルネットワークを記述するのに十分な表現性を示す。
すべてのパラメータが等しく扱われる同質なモデルの場合とは異なり、勾配流はパラメータのサブセットを暗黙的に好んでいる。
- 参考スコア(独自算出の注目度): 26.58848653965855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore the maximum-margin bias of quasi-homogeneous neural
networks trained with gradient flow on an exponential loss and past a point of
separability. We introduce the class of quasi-homogeneous models, which is
expressive enough to describe nearly all neural networks with homogeneous
activations, even those with biases, residual connections, and normalization
layers, while structured enough to enable geometric analysis of its gradient
dynamics. Using this analysis, we generalize the existing results of
maximum-margin bias for homogeneous networks to this richer class of models. We
find that gradient flow implicitly favors a subset of the parameters, unlike in
the case of a homogeneous model where all parameters are treated equally. We
demonstrate through simple examples how this strong favoritism toward
minimizing an asymmetric norm can degrade the robustness of quasi-homogeneous
models. On the other hand, we conjecture that this norm-minimization discards,
when possible, unnecessary higher-order parameters, reducing the model to a
sparser parameterization. Lastly, by applying our theorem to sufficiently
expressive neural networks with normalization layers, we reveal a universal
mechanism behind the empirical phenomenon of Neural Collapse.
- Abstract(参考訳): 本研究では,指数的損失と分離点を経た勾配流を学習した準同次ニューラルネットワークの最大偏差について検討する。
偏り、残差接続、正規化層でさえ、ほぼ全てのニューラルネットワークを均質な活性化で表すのに十分な表現力を持つ準同質モデルのクラスを導入し、その勾配ダイナミクスの幾何学的解析を可能にするのに十分な構造を持つ。
この解析を用いて,同質ネットワークに対する最大マージンバイアスの既往結果を,よりリッチなモデルに一般化する。
勾配流は、すべてのパラメータが等しく扱われる等質モデルの場合とは異なり、暗黙的にパラメータのサブセットを好むことが分かる。
非対称ノルムの最小化に対するこの強い好意が準同次モデルのロバスト性をいかに低下させるかを簡単な例で示す。
一方、このノルム最小化は、可能であれば不要な高次パラメータを破棄し、モデルをスパーサーパラメータ化に還元する、と推測する。
最後に、本定理を正規化層を有する十分に表現力のあるニューラルネットワークに適用することにより、神経崩壊の経験的現象の背後にある普遍的なメカニズムを明らかにする。
関連論文リスト
- Generalization for Least Squares Regression With Simple Spiked Covariances [3.9134031118910264]
勾配降下によって訓練された2層ニューラルネットワークの一般化特性はいまだよく分かっていない。
最近の研究は、隠れた層における特徴行列のスペクトルを記述することで進展した。
しかし、スパイク共分散を持つ線形モデルの一般化誤差は以前には決定されていない。
論文 参考訳(メタデータ) (2024-10-17T19:46:51Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - Understanding Double Descent Requires a Fine-Grained Bias-Variance
Decomposition [34.235007566913396]
ラベルに関連付けられた用語への分散の解釈可能で対称的な分解について述べる。
バイアスはネットワーク幅とともに単調に減少するが、分散項は非単調な振る舞いを示す。
我々はまた、著しく豊かな現象論も分析する。
論文 参考訳(メタデータ) (2020-11-04T21:04:02Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Learning CHARME models with neural networks [1.5362025549031046]
我々はCHARME(Conditional Heteroscedastic Autoregressive Mixture of Experts)と呼ばれるモデルを考える。
そこで本研究では,NNに基づく自己回帰関数の学習理論を開発した。
論文 参考訳(メタデータ) (2020-02-08T21:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。