論文の概要: No Wrong Turns: The Simple Geometry Of Neural Networks Optimization
Paths
- arxiv url: http://arxiv.org/abs/2306.11922v1
- Date: Tue, 20 Jun 2023 22:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 15:24:51.021784
- Title: No Wrong Turns: The Simple Geometry Of Neural Networks Optimization
Paths
- Title(参考訳): 間違いなし:ニューラルネットワーク最適化パスの単純な幾何学
- Authors: Charles Guille-Escuret, Hiroki Naganuma, Kilian Fatras, Ioannis
Mitliagkas
- Abstract要約: 1次最適化アルゴリズムは、ディープニューラルネットワークにおいて好ましいミニマを効率的に見つけることが知られている。
2つの鍵経路における標本最適化量の基本的な幾何学的性質に焦点をあてる。
以上の結果から,最適化トラジェクトリは大きな障害に遭遇しないだけでなく,ほとんどのトレーニングにおいて安定なダイナミクスも維持できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 12.068608358926317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the optimization dynamics of neural networks is necessary for
closing the gap between theory and practice. Stochastic first-order
optimization algorithms are known to efficiently locate favorable minima in
deep neural networks. This efficiency, however, contrasts with the non-convex
and seemingly complex structure of neural loss landscapes. In this study, we
delve into the fundamental geometric properties of sampled gradients along
optimization paths. We focus on two key quantities, which appear in the
restricted secant inequality and error bound. Both hold high significance for
first-order optimization. Our analysis reveals that these quantities exhibit
predictable, consistent behavior throughout training, despite the stochasticity
induced by sampling minibatches. Our findings suggest that not only do
optimization trajectories never encounter significant obstacles, but they also
maintain stable dynamics during the majority of training. These observed
properties are sufficiently expressive to theoretically guarantee linear
convergence and prescribe learning rate schedules mirroring empirical
practices. We conduct our experiments on image classification, semantic
segmentation and language modeling across different batch sizes, network
architectures, datasets, optimizers, and initialization seeds. We discuss the
impact of each factor. Our work provides novel insights into the properties of
neural network loss functions, and opens the door to theoretical frameworks
more relevant to prevalent practice.
- Abstract(参考訳): 理論と実践のギャップを埋めるためには,ニューラルネットワークの最適化ダイナミクスを理解する必要がある。
確率的一階最適化アルゴリズムは、ディープニューラルネットワークにおいて好ましいミニマを効率的に見つけることが知られている。
しかし、この効率性は、神経損失の風景の非凸および一見複雑な構造とは対照的である。
本研究では,最適化経路に沿ったサンプル勾配の基本幾何学的性質について考察する。
制限されたセカント不等式とエラー境界に現れる2つの重要な量に焦点を当てる。
どちらも一階最適化において非常に重要である。
分析の結果,ミニバッチのサンプリングによる確率性にもかかわらず,これらの量はトレーニングを通して予測可能で一貫した行動を示すことが明らかとなった。
以上の結果から,最適化トラジェクトリは大きな障害に遭遇しないだけでなく,ほとんどのトレーニングにおいて安定なダイナミクスも維持できる可能性が示唆された。
これらの特性は、理論的に線形収束を保証し、経験的実践を反映した学習率スケジュールを規定するのに十分な表現性を持つ。
我々は、画像分類、意味セグメンテーション、さまざまなバッチサイズ、ネットワークアーキテクチャ、データセット、オプティマイザ、初期化シードにおける言語モデリングの実験を行う。
我々は各要因の影響について論じる。
我々の研究は、ニューラルネットワーク損失関数の性質に関する新しい洞察を提供し、一般的な実践に関係のある理論的なフレームワークへの扉を開く。
関連論文リスト
- Improving Generalization of Deep Neural Networks by Optimum Shifting [33.092571599896814]
本稿では,ニューラルネットワークのパラメータを最小値からフラット値に変化させる,近位シフトと呼ばれる新しい手法を提案する。
本手法は,ニューラルネットワークの入力と出力が固定された場合,ネットワーク内の行列乗算を,未決定線形方程式系として扱うことができることを示す。
論文 参考訳(メタデータ) (2024-05-23T02:31:55Z) - Outliers with Opposing Signals Have an Outsized Effect on Neural Network
Optimization [36.72245290832128]
自然データにおける深度とヘビーテール構造との相互作用から生じるニューラルネットワーク最適化の新たな現象を同定する。
特に、プログレッシブ・シャープニングと安定性の端について、概念的に新しい原因を示唆している。
強い反対信号を持つトレーニングデータにおいて,2組のオフレーヤ群が有意な影響を示した。
論文 参考訳(メタデータ) (2023-11-07T17:43:50Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。
従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文 参考訳(メタデータ) (2021-03-09T14:51:34Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - Efficient and Sparse Neural Networks by Pruning Weights in a
Multiobjective Learning Approach [0.0]
本稿では、予測精度とネットワーク複雑性を2つの個別目的関数として扱うことにより、ニューラルネットワークのトレーニングに関する多目的視点を提案する。
模範的畳み込みニューラルネットワークの予備的な数値結果から、ニューラルネットワークの複雑性の大幅な低減と精度の低下が可能であることが確認された。
論文 参考訳(メタデータ) (2020-08-31T13:28:03Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。