論文の概要: A global analysis of global optimisation
- arxiv url: http://arxiv.org/abs/2210.05371v1
- Date: Mon, 10 Oct 2022 06:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:56:58.866785
- Title: A global analysis of global optimisation
- Title(参考訳): グローバル最適化のグローバル分析
- Authors: Lachlan Ewen MacDonald, Hemanth Saratchandran, Jack Valmadre, Simon
Lucey
- Abstract要約: 最適化の研究のために設計された一般的な理論的枠組みを導入する。
ニューラルネットワークロスランドスケープの曲率と規則性特性をグローバルに解析するために、我々のフレームワークを使用します。
このような最適化が無限にしか存在しない場合でも、一群のディープニューラルネットワークをグローバルオプティマへの勾配降下を用いて訓練できるという最初の証明を与える。
- 参考スコア(独自算出の注目度): 26.940077534828585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theoretical understanding of the training of deep neural networks has made
great strides in recent years. In particular, it has been shown that sufficient
width and sufficiently small learning rate suffice to guarantee that chain
networks trained with the square cost converge to global minima close to
initialisation. However, this theory cannot apply to the cross-entropy cost,
whose global minima exit only at infinity. In this paper, we introduce a
general theoretical framework, designed for the study of optimisation, that
encompasses ubiquitous architectural choices including batch normalisation,
weight normalisation and skip connections. We use our framework to conduct a
global analysis of the curvature and regularity properties of neural network
loss landscapes, and give two applications. First, we give the first proof that
a class of deep neural networks can be trained using gradient descent to global
optima even when such optima only exist at infinity. Second, we use the theory
in an empirical analysis of the effect of residual connections on training
speed, which we verify with ResNets on MNIST, CIFAR10 and CIFAR100.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングに関する理論的理解は、近年大きな進歩を遂げている。
特に、四角いコストで訓練されたチェーンネットワークが初期化に近いグローバルミニマに収束することを保証するのに十分な幅と学習速度が十分であることが示されている。
しかし、この理論は、無限大のミニマが無限大でしか出てこないクロスエントロピーコストには適用できない。
本稿では,バッチ正規化,重み正規化,スキップ接続など,ユビキタスなアーキテクチャ選択を包含する最適化研究のための汎用理論的枠組みを提案する。
ニューラルネットワークロスランドスケープの曲率と規則性特性をグローバルに解析するために、我々のフレームワークを使用し、2つのアプリケーションを提供します。
まず,深層ニューラルネットワークのクラスが,そのようなオプティマが無限大にしか存在しない場合でも,勾配降下を用いてグローバルオプティマに学習できることを示す。
次に, この理論を, MNIST, CIFAR10, CIFAR100上でResNetsを用いて検証し, 残差接続がトレーニング速度に与える影響を実証分析した。
関連論文リスト
- Understanding the training of infinitely deep and wide ResNets with Conditional Optimal Transport [26.47265060394168]
深部ニューラルネットワークの勾配流は遠距離で任意に収束することを示す。
これは空間における有限幅の勾配距離の理論に依存する。
論文 参考訳(メタデータ) (2024-03-19T16:34:31Z) - Rotation Equivariant Proximal Operator for Deep Unfolding Methods in Image Restoration [62.41329042683779]
本稿では, 回転対称性を組み込んだ高精度な回転同変近位ネットワークを提案する。
本研究は, 回転対称性の先行を深く展開する枠組みに効果的に組み込む, 高精度な回転同変近位ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-25T11:53:06Z) - On the Effect of Initialization: The Scaling Path of 2-Layer Neural
Networks [21.69222364939501]
教師付き学習では、正規化経路はゼロからの勾配降下の最適化経路の便利な理論的プロキシとして用いられることがある。
この経路がカーネルとリッチレジームの間に連続的に補間されていることを示す。
論文 参考訳(メタデータ) (2023-03-31T05:32:11Z) - Optimisation & Generalisation in Networks of Neurons [8.078758339149822]
この論文の目的は、人工ニューラルネットワークにおける学習の最適化と一般化理論の基礎を開発することである。
アーキテクチャに依存した一階最適化アルゴリズムを導出するための新しい理論的枠組みを提案する。
ネットワークと個々のネットワークのアンサンブルの間には,新たな対応関係が提案されている。
論文 参考訳(メタデータ) (2022-10-18T18:58:40Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Critical Initialization of Wide and Deep Neural Networks through Partial
Jacobians: General Theory and Applications [6.579523168465526]
ネットワークの固有ヤコビアン(enmphpartial Jacobians)を導入し、層$l$におけるプレアクティベーションの微分として定義し、層$l_0leq l$におけるプレアクティベーションについて述べる。
我々は,部分ジャコビアンのノルムに対する再帰関係を導出し,これらの関係を利用して,LayerNormおよび/または残留接続を用いたディープ・完全連結ニューラルネットワークの臨界度を解析する。
論文 参考訳(メタデータ) (2021-11-23T20:31:42Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。