論文の概要: An initial alignment between neural network and target is needed for
gradient descent to learn
- arxiv url: http://arxiv.org/abs/2202.12846v1
- Date: Fri, 25 Feb 2022 17:36:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 16:01:42.816433
- Title: An initial alignment between neural network and target is needed for
gradient descent to learn
- Title(参考訳): 勾配降下学習にはニューラルネットワークとターゲットの初期アライメントが必要である
- Authors: Emmanuel Abbe, Elisabetta Cornacchia, Jan H\k{a}z{\l}a, Christopher
Marquis
- Abstract要約: ネットワークとターゲット関数が顕著なINALを持っていなければ、完全に接続されたネットワーク上のノイズの勾配勾配は、時間内に学習されないことが証明された。
結果は,INAL以外の対象関数の明示的な知識を必要とせずに,対称ニューラルネットワーク上での降下アルゴリズムの下位バウンドを導出することに基づく。
- 参考スコア(独自算出の注目度): 19.155018449068645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the notion of "Initial Alignment" (INAL) between a
neural network at initialization and a target function. It is proved that if a
network and target function do not have a noticeable INAL, then noisy gradient
descent on a fully connected network with normalized i.i.d. initialization will
not learn in polynomial time. Thus a certain amount of knowledge about the
target (measured by the INAL) is needed in the architecture design. This also
provides an answer to an open problem posed in [AS20]. The results are based on
deriving lower-bounds for descent algorithms on symmetric neural networks
without explicit knowledge of the target function beyond its INAL.
- Abstract(参考訳): 本稿では,初期化時のニューラルネットワークと目標関数との「初期アライメント」(inal)の概念を紹介する。
ネットワークと対象関数が顕著な慣性を持たない場合、正規化i.i.d.初期化を持つ完全連結ネットワーク上の雑音勾配降下は多項式時間では学習されないことが証明される。
したがって、アーキテクチャ設計にはターゲットに関するある程度の知識(inalによって測定される)が必要である。
また、[AS20]で提起されたオープンな問題に対する回答も提供します。
結果は,INAL以外の対象関数の明示的な知識を必要とせずに,対称ニューラルネットワーク上での降下アルゴリズムの下位バウンドを導出することに基づく。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the optimization and generalization of overparameterized implicit
neural networks [25.237054775800164]
機械学習コミュニティでは、暗黙のニューラルネットワークがますます魅力的になっている。
暗黙の層のみを訓練しても,グローバル収束が保証されることを示す。
本稿では,暗黙的ニューラルネットワークの一般化誤差について検討する。
論文 参考訳(メタデータ) (2022-09-30T16:19:46Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Neural networks with linear threshold activations: structure and
algorithms [1.795561427808824]
クラス内で表現可能な関数を表現するのに、2つの隠れたレイヤが必要であることを示す。
また、クラス内の任意の関数を表すのに必要なニューラルネットワークのサイズについて、正確な境界を与える。
我々は,線形しきい値ネットワークと呼ばれるニューラルネットワークの新たなクラスを提案する。
論文 参考訳(メタデータ) (2021-11-15T22:33:52Z) - Universality of Gradient Descent Neural Network Training [0.0]
ニューラルネットワークの再設計が常に可能であるかどうかを議論する。
この構造は実用的な計算を目的としていないが、メタラーニングと関連するアプローチの可能性についてある程度の方向性を提供する。
論文 参考訳(メタデータ) (2020-07-27T16:17:19Z) - Beyond Signal Propagation: Is Feature Diversity Necessary in Deep Neural
Network Initialization? [31.122757815108884]
ほぼすべての重みを0ドルに初期化することにより、同一の特徴を持つ深層畳み込みネットワークを構築する。
このアーキテクチャは完全な信号伝搬と安定した勾配を可能にし、標準ベンチマークの精度も高い。
論文 参考訳(メタデータ) (2020-07-02T11:49:17Z) - Pruning neural networks without any data by iteratively conserving
synaptic flow [27.849332212178847]
ディープニューラルネットワークのパラメータを抽出することは、時間、記憶、エネルギーの潜在的な節約によって、大きな関心を集めている。
近年の研究では、高価なトレーニングとプルーニングサイクルを通じて、当選した宝くじやスパーストレーナーブルワークスの存在が特定されている。
我々は、理論駆動型アルゴリズム設計を通じて、この問題に対する肯定的な回答を提供する。
論文 参考訳(メタデータ) (2020-06-09T19:21:57Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。