論文の概要: Loss Landscape Characterization of Neural Networks without Over-Parametrization
- arxiv url: http://arxiv.org/abs/2410.12455v3
- Date: Thu, 24 Oct 2024 19:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:34:54.184106
- Title: Loss Landscape Characterization of Neural Networks without Over-Parametrization
- Title(参考訳): 過度パラメータ化を伴わないニューラルネットワークのロスランドスケープ特性
- Authors: Rustem Islamov, Niccolò Ajroldi, Antonio Orvieto, Aurelien Lucchi,
- Abstract要約: 本稿では, 過度な過度なパラメータ化を必要とせず, 最新の深層モデルの損失を特徴付ける新しい関数のクラスを提案する。
この仮定の下で、勾配に基づく函数が収束の理論的保証を持つことを証明する。
- 参考スコア(独自算出の注目度): 11.353151000771582
- License:
- Abstract: Optimization methods play a crucial role in modern machine learning, powering the remarkable empirical achievements of deep learning models. These successes are even more remarkable given the complex non-convex nature of the loss landscape of these models. Yet, ensuring the convergence of optimization methods requires specific structural conditions on the objective function that are rarely satisfied in practice. One prominent example is the widely recognized Polyak-Lojasiewicz (PL) inequality, which has gained considerable attention in recent years. However, validating such assumptions for deep neural networks entails substantial and often impractical levels of over-parametrization. In order to address this limitation, we propose a novel class of functions that can characterize the loss landscape of modern deep models without requiring extensive over-parametrization and can also include saddle points. Crucially, we prove that gradient-based optimizers possess theoretical guarantees of convergence under this assumption. Finally, we validate the soundness of our new function class through both theoretical analysis and empirical experimentation across a diverse range of deep learning models.
- Abstract(参考訳): 最適化手法は現代の機械学習において重要な役割を担い、ディープラーニングモデルの顕著な経験的成果を支えている。
これらの成功は、これらのモデルの損失景観の複雑な非凸の性質を考えると、さらに顕著である。
しかし、最適化手法の収束を保証するには、実際にはほとんど満たされない目的関数の特定の構造条件が必要である。
顕著な例はポリアック・ロジャシエヴィチの不平等(PL)であり、近年注目されている。
しかし、深層ニューラルネットワークに対するそのような仮定を検証するには、実質的かつしばしば非現実的な過度なパラメータ化が必要となる。
この制限に対処するために, 広範に過度な過度なパラメータ化を必要とせずに, 現代の深層モデルの損失景観を特徴付けることができる関数群を提案する。
重要なことは、勾配に基づく最適化が、この仮定の下での収束の理論的保証を持っていることを証明している。
最後に,多種多様な深層学習モデルにおける理論的解析と経験的実験の両方を通して,新しい関数クラスの健全性を検証する。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - A practical existence theorem for reduced order models based on convolutional autoencoders [0.4604003661048266]
部分微分方程式 (PDE) と還元次数モデリング (ROM) の分野ではディープラーニングが人気を博している。
CNNベースのオートエンコーダは、複雑な非線形問題に対処する際、低基底法などの確立された手法よりも極めて効果的であることが証明されている。
パラメーター対解写像が正則である場合、CNNベースの自己エンコーダに対して新しい実用的存在定理を提供する。
論文 参考訳(メタデータ) (2024-02-01T09:01:58Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - No Wrong Turns: The Simple Geometry Of Neural Networks Optimization
Paths [12.068608358926317]
1次最適化アルゴリズムは、ディープニューラルネットワークにおいて好ましいミニマを効率的に見つけることが知られている。
2つの鍵経路における標本最適化量の基本的な幾何学的性質に焦点をあてる。
以上の結果から,最適化トラジェクトリは大きな障害に遭遇しないだけでなく,ほとんどのトレーニングにおいて安定なダイナミクスも維持できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-20T22:10:40Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Uses and Abuses of the Cross-Entropy Loss: Case Studies in Modern Deep
Learning [29.473503894240096]
我々は、厳密な分類ではなく、単純な表現の値を取るデータにカテゴリ横断エントロピー損失を用いることに焦点をあてる。
このプラクティスは、ラベルの平滑化やアクター/ミリ波強化学習など、ニューラルネットワークアーキテクチャにおいて標準的なものだ。
我々はこれらのモデルに対して確率論的に着想を得た代替案を提案し、より原理的で理論的に魅力的であるアプローチを提供する。
論文 参考訳(メタデータ) (2020-11-10T16:44:35Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - The Loss Surfaces of Neural Networks with General Activation Functions [0.0]
我々は、ランダム行列理論の超対称手法を用いてスピングラスの複雑性計算を通して新しい経路をグラフ化する。
我々の結果は、この文脈におけるスピンガラスモデルの強度と弱さの両方に新たな光を当てた。
論文 参考訳(メタデータ) (2020-04-08T12:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。