論文の概要: A simple connection from loss flatness to compressed neural representations
- arxiv url: http://arxiv.org/abs/2310.01770v4
- Date: Sun, 04 May 2025 22:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:34.890998
- Title: A simple connection from loss flatness to compressed neural representations
- Title(参考訳): 損失平坦性から圧縮されたニューラル表現への簡単な接続
- Authors: Shirui Chen, Stefano Recanatesi, Eric Shea-Brown,
- Abstract要約: 損失ランドスケープの平坦さを反映したパラメータ空間の幾何学的測度であるシャープネスは、ニューラルネットワークの挙動と潜在的な関係について長い間研究されてきた。
本稿では,特徴空間におけるニューラル表現の局所的幾何学的特徴がシャープさがどのように影響するかを考察する。
- 参考スコア(独自算出の注目度): 3.5502600490147196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sharpness, a geometric measure in the parameter space that reflects the flatness of the loss landscape, has long been studied for its potential connections to neural network behavior. While sharpness is often associated with generalization, recent work highlights inconsistencies in this relationship, leaving its true significance unclear. In this paper, we investigate how sharpness influences the local geometric features of neural representations in feature space, offering a new perspective on its role. We introduce this problem and study three measures for compression: the Local Volumetric Ratio (LVR), based on volume compression, the Maximum Local Sensitivity (MLS), based on sensitivity to input changes, and the Local Dimensionality, based on how uniform the sensitivity is on different directions. We show that LVR and MLS correlate with the flatness of the loss around the local minima; and that this correlation is predicted by a relatively simple mathematical relationship: a flatter loss corresponds to a lower upper bound on the compression metrics of neural representations. Our work builds upon the linear stability insight by Ma and Ying, deriving inequalities between various compression metrics and quantities involving sharpness. Our inequalities readily extend to reparametrization-invariant sharpness as well. Through empirical experiments on various feedforward, convolutional, and transformer architectures, we find that our inequalities predict a consistently positive correlation between local representation compression and sharpness.
- Abstract(参考訳): 損失ランドスケープの平坦さを反映したパラメータ空間の幾何学的測度であるシャープネスは、ニューラルネットワークの挙動と潜在的な関係について長い間研究されてきた。
シャープネスはしばしば一般化と関連づけられるが、最近の研究は、この関係における矛盾を強調し、真の意味ははっきりしないままである。
本稿では,特徴空間におけるニューラル表現の局所的幾何学的特徴がシャープさがどのように影響するかを考察し,その役割について新たな視点を提供する。
本稿では, 容量圧縮に基づく局所体積比 (LVR) , 入力変化に対する感度に基づく最大局所感度 (MLS) , 異なる方向における感度の均一性に基づく局所次元の3つの圧縮方法について検討する。
LVRとMLSの相関は局所的最小値周辺の損失の平坦さと相関し,この相関関係は比較的単純な数学的関係によって予測される。
本研究は,Ma と Ying による線形安定性の洞察に基づくもので,様々な圧縮測定値と鋭さを含む量の不等式を導出する。
我々の不等式は、再パラメータ化不変のシャープネスにも容易に拡張できる。
様々なフィードフォワード、畳み込み、トランスフォーマーアーキテクチャに関する実証実験により、我々の不等式は局所的な表現圧縮とシャープネスの間に一貫した正の相関を予測できることがわかった。
関連論文リスト
- Topological obstruction to the training of shallow ReLU neural networks [0.0]
損失ランドスケープの幾何学と単純なニューラルネットワークの最適化軌跡との相互作用について検討する。
本稿では,勾配流を用いた浅部ReLUニューラルネットワークの損失景観におけるトポロジカル障害物の存在を明らかにする。
論文 参考訳(メタデータ) (2024-10-18T19:17:48Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - The Multiscale Structure of Neural Network Loss Functions: The Effect on
Optimization and Origin [12.092361450994318]
本稿では,ニューラルネットワークの損失関数の構造とその2次近似の範囲を超えた領域における最適化への影響について検討する。
異なる大きさのトレーニングデータによって損失関数のスケールが異なることが示され、サブクワッドラティックな成長や複数の個別のスケールが生成される。
論文 参考訳(メタデータ) (2022-04-24T17:34:12Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - Deep Networks on Toroids: Removing Symmetries Reveals the Structure of
Flat Regions in the Landscape Geometry [3.712728573432119]
我々は、すべての対称性を除去し、トロイダルトポロジーをもたらす標準化されたパラメータ化を開発する。
最小化器の平坦性とそれらの接続する測地線経路の有意義な概念を導出する。
また、勾配勾配の変種によって発見された最小化器は、ゼロエラー経路と1つの曲がり角で接続可能であることも見いだした。
論文 参考訳(メタデータ) (2022-02-07T09:57:54Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z) - Avoiding Spurious Local Minima in Deep Quadratic Networks [0.0]
ニューラルアクティベーション機能を持つネットワークにおける平均2乗非線形誤差の景観を特徴付ける。
2次アクティベーションを持つ深層ニューラルネットワークは、類似した景観特性の恩恵を受けることが証明された。
論文 参考訳(メタデータ) (2019-12-31T22:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。