論文の概要: Convergence Analysis of Over-parameterized Deep Linear Networks, and the
Principal Components Bias
- arxiv url: http://arxiv.org/abs/2105.05553v1
- Date: Wed, 12 May 2021 10:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 21:15:28.665117
- Title: Convergence Analysis of Over-parameterized Deep Linear Networks, and the
Principal Components Bias
- Title(参考訳): 過パラメータ化深部線形ネットワークの収束解析と主成分バイアス
- Authors: Guy Hacohen and Daphna Weinshall
- Abstract要約: 畳み込みニューラルネットワークは同じ順序で画像を分類することを学ぶ。
我々は,PCバイアスが線形ネットワークと非線形ネットワークの両方の学習順序を合理化することを示す。
- 参考スコア(独自算出の注目度): 14.46779433267854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural networks of different architectures seem to learn to
classify images in the same order. To understand this phenomenon, we revisit
the over-parametrized deep linear network model. Our analysis of this model's
learning dynamics reveals that the convergence rate of its parameters is
exponentially faster along directions corresponding to the larger principal
components of the data, at a rate governed by the singular values. We term this
convergence pattern the Principal Components bias (PC-bias). We show how the
PC-bias streamlines the order of learning of both linear and non-linear
networks, more prominently in earlier stages of learning. We then compare our
results to the spectral bias, showing that both biases can be seen
independently, and affect the order of learning in different ways. Finally, we
discuss how the PC-bias can explain several phenomena, including the benefits
of prevalent initialization schemes, how early stopping may be related to PCA,
and why deep networks converge more slowly when given random labels.
- Abstract(参考訳): 異なるアーキテクチャの畳み込みニューラルネットワークは、イメージを同じ順序で分類することを学ぶようだ。
この現象を理解するために、過度にパラメータ化された深層線形ネットワークモデルを再検討する。
このモデルの学習力学を解析したところ、パラメータの収束速度は、データの大きな主成分に対応する方向に沿って指数関数的に速く、特異値によって支配される。
この収束パターンを主成分バイアス(PCバイアス)と呼ぶ。
学習の初期段階において,PCバイアスが線形ネットワークと非線形ネットワークの両方の学習順序を合理化することを示す。
結果とスペクトルバイアスを比較し、両方のバイアスを独立して見ることができ、異なる方法で学習の順序に影響を与えることを示す。
最後に, pc-biasは, 一般的な初期化スキームの利点, 早期停止がpcaとの関連性, ランダムラベルが与えられた場合のディープネットワークの収束が遅くなる理由など, 様々な現象を説明できる。
関連論文リスト
- On Privileged and Convergent Bases in Neural Network Representations [7.888192939262696]
WideResNetsのような広帯域ネットワークにおいても、ニューラルネットワークは独自の基盤に収束しないことを示す。
また,ベース相関の尺度として研究されている線形モード接続性の解析を行った。
論文 参考訳(メタデータ) (2023-07-24T17:11:39Z) - Predictions Based on Pixel Data: Insights from PDEs and Finite Differences [0.0]
本稿では,各観測が行列である時間列の近似を扱う。
比較的小さなネットワークでは、直線法に基づいて、PDEの数値的な離散化のクラスを正確に表現できることが示される。
我々のネットワークアーキテクチャは、典型的に時系列の近似に採用されているものから着想を得ている。
論文 参考訳(メタデータ) (2023-05-01T08:54:45Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - The Principles of Deep Learning Theory [19.33681537640272]
この本は、実践的妥当性の深いニューラルネットワークを理解するための効果的な理論アプローチを開発する。
これらのネットワークがトレーニングから非自明な表現を効果的に学習する方法について説明する。
トレーニングネットワークのアンサンブルの有効モデル複雑性を,奥行き比が支配していることを示す。
論文 参考訳(メタデータ) (2021-06-18T15:00:00Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。