論文の概要: On skip connections and normalisation layers in deep optimisation
- arxiv url: http://arxiv.org/abs/2210.05371v4
- Date: Mon, 4 Dec 2023 15:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 02:03:21.205370
- Title: On skip connections and normalisation layers in deep optimisation
- Title(参考訳): 深層最適化におけるスキップ接続と正規化層について
- Authors: Lachlan Ewen MacDonald, Jack Valmadre, Hemanth Saratchandran, Simon
Lucey
- Abstract要約: 本稿では、ディープニューラルネットワークの最適化研究のための一般的な理論的枠組みを紹介する。
本フレームワークは多層損失景観の曲率および規則性特性を決定する。
スキップ接続がトレーニングを加速する新しい因果メカニズムを同定する。
- 参考スコア(独自算出の注目度): 32.51139594406463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a general theoretical framework, designed for the study of
gradient optimisation of deep neural networks, that encompasses ubiquitous
architecture choices including batch normalisation, weight normalisation and
skip connections. Our framework determines the curvature and regularity
properties of multilayer loss landscapes in terms of their constituent layers,
thereby elucidating the roles played by normalisation layers and skip
connections in globalising these properties. We then demonstrate the utility of
this framework in two respects. First, we give the only proof of which we are
aware that a class of deep neural networks can be trained using gradient
descent to global optima even when such optima only exist at infinity, as is
the case for the cross-entropy cost. Second, we identify a novel causal
mechanism by which skip connections accelerate training, which we verify
predictively with ResNets on MNIST, CIFAR10, CIFAR100 and ImageNet.
- Abstract(参考訳): 本研究では,重みの正規化,重みの正規化,スキップ接続など,ユビキタスなアーキテクチャの選択を包含する深層ニューラルネットワークの勾配最適化の研究のために設計された一般理論的枠組みを提案する。
本フレームワークは,多層損失景観の曲率および規則性特性を構成層の観点から決定し,正規化層が果たす役割を解明し,これらの特性のグローバル化における接続を省略する。
次に、このフレームワークの有用性を2つの点で示します。
まず,大域的オプティマへの勾配勾配勾配を用いた深層ニューラルネットワークの学習が無限大にしか存在しないこと,すなわちクロスエントロピーコストの場合においても可能であることを,我々が認識している唯一の証明を与える。
第2に,MNIST, CIFAR10, CIFAR100, ImageNet上のResNetsと予測的に検証する,スキップ接続を加速する新たな因果メカニズムを同定する。
関連論文リスト
- Understanding the training of infinitely deep and wide ResNets with Conditional Optimal Transport [26.47265060394168]
深部ニューラルネットワークの勾配流は遠距離で任意に収束することを示す。
これは空間における有限幅の勾配距離の理論に依存する。
論文 参考訳(メタデータ) (2024-03-19T16:34:31Z) - Rotation Equivariant Proximal Operator for Deep Unfolding Methods in Image Restoration [62.41329042683779]
本稿では, 回転対称性を組み込んだ高精度な回転同変近位ネットワークを提案する。
本研究は, 回転対称性の先行を深く展開する枠組みに効果的に組み込む, 高精度な回転同変近位ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-25T11:53:06Z) - On the Effect of Initialization: The Scaling Path of 2-Layer Neural
Networks [21.69222364939501]
教師付き学習では、正規化経路はゼロからの勾配降下の最適化経路の便利な理論的プロキシとして用いられることがある。
この経路がカーネルとリッチレジームの間に連続的に補間されていることを示す。
論文 参考訳(メタデータ) (2023-03-31T05:32:11Z) - Optimisation & Generalisation in Networks of Neurons [8.078758339149822]
この論文の目的は、人工ニューラルネットワークにおける学習の最適化と一般化理論の基礎を開発することである。
アーキテクチャに依存した一階最適化アルゴリズムを導出するための新しい理論的枠組みを提案する。
ネットワークと個々のネットワークのアンサンブルの間には,新たな対応関係が提案されている。
論文 参考訳(メタデータ) (2022-10-18T18:58:40Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Critical Initialization of Wide and Deep Neural Networks through Partial
Jacobians: General Theory and Applications [6.579523168465526]
ネットワークの固有ヤコビアン(enmphpartial Jacobians)を導入し、層$l$におけるプレアクティベーションの微分として定義し、層$l_0leq l$におけるプレアクティベーションについて述べる。
我々は,部分ジャコビアンのノルムに対する再帰関係を導出し,これらの関係を利用して,LayerNormおよび/または残留接続を用いたディープ・完全連結ニューラルネットワークの臨界度を解析する。
論文 参考訳(メタデータ) (2021-11-23T20:31:42Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。