論文の概要: Understanding Sharpness Dynamics in NN Training with a Minimalist Example: The Effects of Dataset Difficulty, Depth, Stochasticity, and More
- arxiv url: http://arxiv.org/abs/2506.06940v1
- Date: Sat, 07 Jun 2025 22:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.575521
- Title: Understanding Sharpness Dynamics in NN Training with a Minimalist Example: The Effects of Dataset Difficulty, Depth, Stochasticity, and More
- Title(参考訳): ミニマリストによるNNトレーニングにおけるシャープネスのダイナミクスの理解:データセットの難易度、深さ、確率性などの影響
- Authors: Geonhui Yoo, Minhak Song, Chulhee Yun,
- Abstract要約: シャープさのあるディープニューラルネットワークをトレーニングする場合、安定性の端で飽和する前に、しばしば増加する。
本研究では、この現象をミニマリストモデル、すなわち1層に1つのニューロンを持つディープ線形ネットワークを用いて研究する。
この単純なモデルは、最近の経験的研究で観察されたシャープネスのダイナミクスを効果的に捉え、ニューラルネットワークのトレーニングをよりよく理解するための簡単なテストベッドを提供する。
- 参考スコア(独自算出の注目度): 10.65078014704416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When training deep neural networks with gradient descent, sharpness often increases -- a phenomenon known as progressive sharpening -- before saturating at the edge of stability. Although commonly observed in practice, the underlying mechanisms behind progressive sharpening remain poorly understood. In this work, we study this phenomenon using a minimalist model: a deep linear network with a single neuron per layer. We show that this simple model effectively captures the sharpness dynamics observed in recent empirical studies, offering a simple testbed to better understand neural network training. Moreover, we theoretically analyze how dataset properties, network depth, stochasticity of optimizers, and step size affect the degree of progressive sharpening in the minimalist model. We then empirically demonstrate how these theoretical insights extend to practical scenarios. This study offers a deeper understanding of sharpness dynamics in neural network training, highlighting the interplay between depth, training data, and optimizers.
- Abstract(参考訳): 勾配降下を伴うディープニューラルネットワークのトレーニングでは、安定性の端で飽和する前に、シャープネス(プログレッシブシャープニングとして知られる)がしばしば増加する。
実際には一般的に見られるが、進歩的研削のメカニズムはいまだに理解されていない。
本研究では、この現象をミニマリストモデル、すなわち1層に1つのニューロンを持つディープ線形ネットワークを用いて研究する。
この単純なモデルは、最近の経験的研究で観察されたシャープネスのダイナミクスを効果的に捉え、ニューラルネットワークのトレーニングをよりよく理解するためのシンプルなテストベッドを提供する。
さらに,データセット特性,ネットワーク深さ,オプティマイザの確率性,ステップサイズがミニマリストモデルにおけるプログレッシブ・シャープニングの程度にどのように影響するかを理論的に分析する。
そして、これらの理論的洞察が実際的なシナリオにどのように広がるかを実証的に実証する。
この研究は、ニューラルネットワークトレーニングにおけるシャープネスのダイナミクスをより深く理解し、深さ、トレーニングデータ、オプティマイザ間の相互作用を強調します。
関連論文リスト
- An Overview of Low-Rank Structures in the Training and Adaptation of Large Models [52.67110072923365]
近年の研究では、低ランク構造の出現というディープネットワークの広範な現象が明らかになった。
これらの暗黙の低次元パターンは、トレーニングの効率と微調整された大規模モデルを改善するための貴重な洞察を提供する。
深層学習のための低ランク構造の利用の進歩を概観し,その数学的基礎に光を当てる。
論文 参考訳(メタデータ) (2025-03-25T17:26:09Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Outliers with Opposing Signals Have an Outsized Effect on Neural Network
Optimization [36.72245290832128]
自然データにおける深度とヘビーテール構造との相互作用から生じるニューラルネットワーク最適化の新たな現象を同定する。
特に、プログレッシブ・シャープニングと安定性の端について、概念的に新しい原因を示唆している。
強い反対信号を持つトレーニングデータにおいて,2組のオフレーヤ群が有意な影響を示した。
論文 参考訳(メタデータ) (2023-11-07T17:43:50Z) - Universal Sharpness Dynamics in Neural Network Training: Fixed Point Analysis, Edge of Stability, and Route to Chaos [5.854190253899593]
ニューラルネットワークの勾配降下ダイナミクスでは、損失ヘッセン(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。
1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文 参考訳(メタデータ) (2023-11-03T17:59:40Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。