論文の概要: Embedding Principle in Depth for the Loss Landscape Analysis of Deep
Neural Networks
- arxiv url: http://arxiv.org/abs/2205.13283v1
- Date: Thu, 26 May 2022 11:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-05-27 14:23:09.671833
- Title: Embedding Principle in Depth for the Loss Landscape Analysis of Deep
Neural Networks
- Title(参考訳): 深層ニューラルネットワークの損失景観解析のための奥行き埋め込み原理
- Authors: Zhiwei Bai, Tao Luo, Zhi-Qin John Xu, Yaoyu Zhang
- Abstract要約: 我々は、NNの損失ランドスケープが、より浅いNNの損失ランドスケープのすべての重要なポイントを「含んでいる」という、深く埋め込まれた原則を証明した。
我々は、層状線形化を抑えることにより、バッチ正規化が持ち上げ臨界多様体を避けるのに役立つことを実証的に実証した。
- 参考スコア(独自算出の注目度): 3.5208869573271446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unraveling the general structure underlying the loss landscapes of deep
neural networks (DNNs) is important for the theoretical study of deep learning.
Inspired by the embedding principle of DNN loss landscape, we prove in this
work an embedding principle in depth that loss landscape of an NN "contains"
all critical points of the loss landscapes for shallower NNs. Specifically, we
propose a critical lifting operator that any critical point of a shallower
network can be lifted to a critical manifold of the target network while
preserving the outputs. Through lifting, local minimum of an NN can become a
strict saddle point of a deeper NN, which can be easily escaped by first-order
methods. The embedding principle in depth reveals a large family of critical
points in which layer linearization happens, i.e., computation of certain
layers is effectively linear for the training inputs. We empirically
demonstrate that, through suppressing layer linearization, batch normalization
helps avoid the lifted critical manifolds, resulting in a faster decay of loss.
We also demonstrate that increasing training data reduces the lifted critical
manifold thus could accelerate the training. Overall, the embedding principle
in depth well complements the embedding principle (in width), resulting in a
complete characterization of the hierarchical structure of critical
points/manifolds of a DNN loss landscape.
- Abstract(参考訳): 深層ニューラルネットワーク(dnn)のロスランドスケープの基礎となる一般構造を解き放つことは、ディープラーニングの理論研究にとって重要である。
DNNロスランドスケープの埋め込み原理に触発されて、我々はこの研究において、NNのロスランドスケープが、より浅いNNのロスランドスケープのすべての重要なポイントを「含んでいる」ことを証明する。
具体的には、出力を保持しながら、より浅いネットワークの臨界点を対象ネットワークの臨界多様体に持ち上げることができる臨界昇降演算子を提案する。
引き上げによって、NNの局所的な最小限は、より深いNNの厳密なサドルポイントとなり、一階法で容易に脱出できる。
奥行きの埋め込み原理は、層線形化が起こる多くの臨界点、すなわち、特定の層の計算がトレーニング入力に対して効果的に線形であることを示す。
我々は, 階層線形化の抑制により, バッチ正規化は浮き上がらない臨界多様体を回避し, 損失の減衰を早めることを実証的に証明した。
また, 訓練データの増加により, 浮揚臨界多様体が減少し, トレーニングが加速されることを実証した。
全体として、埋め込み原理は埋め込み原理(幅)をうまく補完し、DNN損失ランドスケープの臨界点/多様体の階層構造を完全に特徴づける。
関連論文リスト
- The Computational Advantage of Depth: Learning High-Dimensional Hierarchical Functions with Gradient Descent [28.999394988111106]
潜在部分空間次元の階層構造を組み込んだ対象関数のクラスを導入する。
我々の主定理は、勾配降下による特徴学習が有効次元を減少させることを示している。
これらの知見は、ディープネットワークを用いた階層構造学習における深度の重要な役割について、さらに定量的に研究する道を開く。
論文 参考訳(メタデータ) (2025-02-19T18:58:28Z) - Component-based Sketching for Deep ReLU Nets [55.404661149594375]
各種タスクのためのディープネットコンポーネントに基づくスケッチ手法を開発した。
我々はディープネットトレーニングを線形経験的リスク最小化問題に変換する。
提案したコンポーネントベーススケッチは飽和関数の近似においてほぼ最適であることを示す。
論文 参考訳(メタデータ) (2024-09-21T15:30:43Z) - NEPENTHE: Entropy-Based Pruning as a Neural Network Depth's Reducer [5.373015313199385]
深層ニューラルネットワークの計算負担を軽減するため,nEural Network depTHのrEducerとしてeNtropy-basEdプルーニングを提案する。
我々はMobileNetやSwin-Tといった一般的なアーキテクチャに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-04-24T09:12:04Z) - Peeking Behind the Curtains of Residual Learning [10.915277646160707]
The Plain Neural Net hypothesis (PNNH) は、非線形層を横断する内部経路を残留学習において最も重要な部分として認識する。
我々は,PNNH対応CNNアーキテクチャとトランスフォーマーを一般的なビジョンベンチマーク上で徹底的に評価し,トレーニングスループットが最大0.3%向上し,ResNetやビジョントランスフォーマーに比べてパラメータ効率が2倍向上したことを示す。
論文 参考訳(メタデータ) (2024-02-13T18:24:10Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - Exact Solutions of a Deep Linear Network [2.2344764434954256]
この研究は、重み減衰とニューロンを持つディープ線形ネットワークの大域的ミニマを解析的に表現することを発見した。
重み減衰はモデルアーキテクチャと強く相互作用し、1ドル以上の隠蔽層を持つネットワークにおいてゼロで悪いミニマを生成できることを示す。
論文 参考訳(メタデータ) (2022-02-10T00:13:34Z) - Neural Tangent Kernel Analysis of Deep Narrow Neural Networks [11.623483126242478]
無限に深いが狭いニューラルネットワークの最初のトレーニング可能性保証を示す。
次に、解析を無限深部畳み込みニューラルネットワーク(CNN)に拡張し、簡単な実験を行う。
論文 参考訳(メタデータ) (2022-02-07T07:27:02Z) - Embedding Principle: a hierarchical structure of loss landscape of deep
neural networks [3.0871079010101963]
我々は、ディープニューラルネットワーク(NN)のロスランドスケープの一般的な埋め込み原理を証明する。
より狭いNNの臨界点から埋め込まれた臨界部分多様体の次元を総合的に推定する。
論文 参考訳(メタデータ) (2021-11-30T16:15:50Z) - Embedding Principle of Loss Landscape of Deep Neural Networks [1.1958610985612828]
ディープニューラルネットワーク(DNN)のロスランドスケープが,すべてのDNNの重要な原則を“含んでいる”ことを示す。
広いDNNは、狭いDNNから埋め込まれた高度に退化した臨界点に埋め込まれていることが多い。
論文 参考訳(メタデータ) (2021-05-30T15:32:32Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Robust Pruning at Initialization [61.30574156442608]
計算リソースが限られているデバイス上で、機械学習アプリケーションを使用するための、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。
ディープNNにとって、このような手順はトレーニングが困難であり、例えば、ひとつの層が完全に切断されるのを防ぐことができないため、満足できないままである。
論文 参考訳(メタデータ) (2020-02-19T17:09:50Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。