論文の概要: A simple connection from loss flatness to compressed representations in
neural networks
- arxiv url: http://arxiv.org/abs/2310.01770v2
- Date: Sat, 9 Dec 2023 07:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:19:24.960118
- Title: A simple connection from loss flatness to compressed representations in
neural networks
- Title(参考訳): ニューラルネットワークにおける損失平坦性から圧縮表現への単純な接続
- Authors: Shirui Chen, Stefano Recanatesi, Eric Shea-Brown
- Abstract要約: ディープニューラルネットワークの学習の最終段階において、ニューラルネットワークの多様体の圧縮は、SGDが探索したミニマのまわりの損失の平坦さと相関していることを示す。
この結果は,損失ヘッセンの小さな固有値によって特徴付けられる平坦性が,後期学習段階に発展し,ネットワーク入力の摂動に対する頑健性に寄与することを示すMaとYingの先行研究に基づいている。
- 参考スコア(独自算出の注目度): 3.9901365062418312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization capacity of deep neural networks has been studied in a
variety of ways, including at least two distinct categories of approach: one
based on the shape of the loss landscape in parameter space, and the other
based on the structure of the representation manifold in feature space (that
is, in the space of unit activities). Although these two approaches are
related, they are rarely studied together in an explicit connection. Here, we
present a simple analysis that makes such a connection. We show that, in the
last phase of learning of deep neural networks, compression of the manifold of
neural representations correlates with the flatness of the loss around the
minima explored by SGD. We show that this is predicted by a relatively simple
mathematical relationship: a flatter loss corresponds to a lower upper-bound on
the compression of neural representations. Our results closely build on the
prior work of Ma and Ying, who demonstrated how flatness, characterized by
small eigenvalues of the loss Hessian, develops in late learning phases and
contributes to robustness against perturbations in network inputs. Moreover, we
show a lack of a similarly direct connection between local dimensionality and
sharpness, suggesting that this property may be controlled by different
mechanisms than volume and hence may play a complementary role in neural
representations. Overall, we advance a dual perspective on generalization in
neural networks in both parameter and feature space.
- Abstract(参考訳): ディープニューラルネットワークの一般化能力は、パラメータ空間における損失ランドスケープの形状に基づくものと、特徴空間における表現多様体の構造に基づくもの(つまり、単位活動の空間における)という、少なくとも2つの異なるアプローチのカテゴリを含む様々な方法で研究されてきた。
これら2つのアプローチは関連しているが、明示的な接続で一緒に研究されることは滅多にない。
ここでは、そのような接続を行う簡単な解析について述べる。
ディープニューラルネットワークの学習の最終段階において、ニューラルネットワークの多様体の圧縮は、SGDが探索したミニマ周辺の損失の平坦さと相関していることを示す。
これは比較的単純な数学的関係によって予測される: フラットな損失は、神経表現の圧縮においてより低い上限に対応する。
この結果は,損失ヘッセンの小さな固有値によって特徴付けられる平坦性が,後期学習段階に発展し,ネットワーク入力の摂動に対する頑健性に寄与することを示すMaとYingの先行研究に基づいている。
さらに, 局所次元と鋭さの類似した直接的な関係が欠如していることから, この特性は体積と異なる機構によって制御され, 神経表現において相補的な役割を果たす可能性が示唆された。
全体として、パラメータと特徴空間の両方におけるニューラルネットワークの一般化に関する双対視点を推し進める。
関連論文リスト
- Topological obstruction to the training of shallow ReLU neural networks [0.0]
損失ランドスケープの幾何学と単純なニューラルネットワークの最適化軌跡との相互作用について検討する。
本稿では,勾配流を用いた浅部ReLUニューラルネットワークの損失景観におけるトポロジカル障害物の存在を明らかにする。
論文 参考訳(メタデータ) (2024-10-18T19:17:48Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - The Multiscale Structure of Neural Network Loss Functions: The Effect on
Optimization and Origin [12.092361450994318]
本稿では,ニューラルネットワークの損失関数の構造とその2次近似の範囲を超えた領域における最適化への影響について検討する。
異なる大きさのトレーニングデータによって損失関数のスケールが異なることが示され、サブクワッドラティックな成長や複数の個別のスケールが生成される。
論文 参考訳(メタデータ) (2022-04-24T17:34:12Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - Deep Networks on Toroids: Removing Symmetries Reveals the Structure of
Flat Regions in the Landscape Geometry [3.712728573432119]
我々は、すべての対称性を除去し、トロイダルトポロジーをもたらす標準化されたパラメータ化を開発する。
最小化器の平坦性とそれらの接続する測地線経路の有意義な概念を導出する。
また、勾配勾配の変種によって発見された最小化器は、ゼロエラー経路と1つの曲がり角で接続可能であることも見いだした。
論文 参考訳(メタデータ) (2022-02-07T09:57:54Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z) - Avoiding Spurious Local Minima in Deep Quadratic Networks [0.0]
ニューラルアクティベーション機能を持つネットワークにおける平均2乗非線形誤差の景観を特徴付ける。
2次アクティベーションを持つ深層ニューラルネットワークは、類似した景観特性の恩恵を受けることが証明された。
論文 参考訳(メタデータ) (2019-12-31T22:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。