論文の概要: A simple connection from loss flatness to compressed representations in
neural networks
- arxiv url: http://arxiv.org/abs/2310.01770v2
- Date: Sat, 9 Dec 2023 07:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-12 22:19:24.960118
- Title: A simple connection from loss flatness to compressed representations in
neural networks
- Title(参考訳): ニューラルネットワークにおける損失平坦性から圧縮表現への単純な接続
- Authors: Shirui Chen, Stefano Recanatesi, Eric Shea-Brown
- Abstract要約: ディープニューラルネットワークの学習の最終段階において、ニューラルネットワークの多様体の圧縮は、SGDが探索したミニマのまわりの損失の平坦さと相関していることを示す。
この結果は,損失ヘッセンの小さな固有値によって特徴付けられる平坦性が,後期学習段階に発展し,ネットワーク入力の摂動に対する頑健性に寄与することを示すMaとYingの先行研究に基づいている。
- 参考スコア(独自算出の注目度): 3.9901365062418312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization capacity of deep neural networks has been studied in a
variety of ways, including at least two distinct categories of approach: one
based on the shape of the loss landscape in parameter space, and the other
based on the structure of the representation manifold in feature space (that
is, in the space of unit activities). Although these two approaches are
related, they are rarely studied together in an explicit connection. Here, we
present a simple analysis that makes such a connection. We show that, in the
last phase of learning of deep neural networks, compression of the manifold of
neural representations correlates with the flatness of the loss around the
minima explored by SGD. We show that this is predicted by a relatively simple
mathematical relationship: a flatter loss corresponds to a lower upper-bound on
the compression of neural representations. Our results closely build on the
prior work of Ma and Ying, who demonstrated how flatness, characterized by
small eigenvalues of the loss Hessian, develops in late learning phases and
contributes to robustness against perturbations in network inputs. Moreover, we
show a lack of a similarly direct connection between local dimensionality and
sharpness, suggesting that this property may be controlled by different
mechanisms than volume and hence may play a complementary role in neural
representations. Overall, we advance a dual perspective on generalization in
neural networks in both parameter and feature space.
- Abstract(参考訳): ディープニューラルネットワークの一般化能力は、パラメータ空間における損失ランドスケープの形状に基づくものと、特徴空間における表現多様体の構造に基づくもの(つまり、単位活動の空間における)という、少なくとも2つの異なるアプローチのカテゴリを含む様々な方法で研究されてきた。
これら2つのアプローチは関連しているが、明示的な接続で一緒に研究されることは滅多にない。
ここでは、そのような接続を行う簡単な解析について述べる。
ディープニューラルネットワークの学習の最終段階において、ニューラルネットワークの多様体の圧縮は、SGDが探索したミニマ周辺の損失の平坦さと相関していることを示す。
これは比較的単純な数学的関係によって予測される: フラットな損失は、神経表現の圧縮においてより低い上限に対応する。
この結果は,損失ヘッセンの小さな固有値によって特徴付けられる平坦性が,後期学習段階に発展し,ネットワーク入力の摂動に対する頑健性に寄与することを示すMaとYingの先行研究に基づいている。
さらに, 局所次元と鋭さの類似した直接的な関係が欠如していることから, この特性は体積と異なる機構によって制御され, 神経表現において相補的な役割を果たす可能性が示唆された。
全体として、パラメータと特徴空間の両方におけるニューラルネットワークの一般化に関する双対視点を推し進める。
関連論文リスト
- Stable Minima of ReLU Neural Networks Suffer from the Curse of Dimensionality: The Neural Shattering Phenomenon [22.29950158991071]
平坦さ/低(ロス)曲率の暗黙バイアスとそのReLUネットワークの一般化への影響について検討する。
平坦性は一般化を示唆するが, 入力次元が大きくなるにつれて収束速度は指数関数的に低下する。
論文 参考訳(メタデータ) (2025-06-25T19:10:03Z) - The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。
この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文 参考訳(メタデータ) (2025-06-16T08:35:16Z) - Topological obstruction to the training of shallow ReLU neural networks [0.0]
損失ランドスケープの幾何学と単純なニューラルネットワークの最適化軌跡との相互作用について検討する。
本稿では,勾配流を用いた浅部ReLUニューラルネットワークの損失景観におけるトポロジカル障害物の存在を明らかにする。
論文 参考訳(メタデータ) (2024-10-18T19:17:48Z) - Unraveling the Hessian: A Key to Smooth Convergence in Loss Function Landscapes [0.0]
我々は、完全に連結されたニューラルネットワークにおける損失景観の収束を理論的に解析し、新しいオブジェクトをサンプルに追加する際の損失関数値の差について上限を導出する。
画像分類作業における損失関数面の収束を実証し,これらの結果を様々なデータセットで検証した。
論文 参考訳(メタデータ) (2024-09-18T14:04:15Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Linear Classification of Neural Manifolds with Correlated Variability [3.3946853660795893]
対象表現間の相関関係がキャパシティ,すなわち線形分離可能性にどのように影響するかを示す。
次に、この結果を用いて、ディープネットワークデータのキャパシティを正確に推定する。
論文 参考訳(メタデータ) (2022-11-27T23:01:43Z) - The Multiscale Structure of Neural Network Loss Functions: The Effect on
Optimization and Origin [12.092361450994318]
本稿では,ニューラルネットワークの損失関数の構造とその2次近似の範囲を超えた領域における最適化への影響について検討する。
異なる大きさのトレーニングデータによって損失関数のスケールが異なることが示され、サブクワッドラティックな成長や複数の個別のスケールが生成される。
論文 参考訳(メタデータ) (2022-04-24T17:34:12Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - Deep Networks on Toroids: Removing Symmetries Reveals the Structure of
Flat Regions in the Landscape Geometry [3.712728573432119]
我々は、すべての対称性を除去し、トロイダルトポロジーをもたらす標準化されたパラメータ化を開発する。
最小化器の平坦性とそれらの接続する測地線経路の有意義な概念を導出する。
また、勾配勾配の変種によって発見された最小化器は、ゼロエラー経路と1つの曲がり角で接続可能であることも見いだした。
論文 参考訳(メタデータ) (2022-02-07T09:57:54Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Fundamental Limits and Tradeoffs in Invariant Representation Learning [99.2368462915979]
多くの機械学習アプリケーションは、2つの競合する目標を達成する表現を学習する。
ミニマックスゲーム理論の定式化は、精度と不変性の基本的なトレードオフを表す。
分類と回帰の双方において,この一般的かつ重要な問題を情報論的に解析する。
論文 参考訳(メタデータ) (2020-12-19T15:24:04Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - Tangent Space Sensitivity and Distribution of Linear Regions in ReLU
Networks [0.0]
我々は, 接空間における対角安定性を考察し, 安定度を特徴付けるために接空間感度を提案する。
フィードフォワード完全連結ReLUネットワークに対する計算容易な境界と経験的測度を導出する。
我々の実験は、単純な境界や測度でさえ経験的一般化ギャップと関連していることを示唆している。
論文 参考訳(メタデータ) (2020-06-11T20:02:51Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z) - Avoiding Spurious Local Minima in Deep Quadratic Networks [0.0]
ニューラルアクティベーション機能を持つネットワークにおける平均2乗非線形誤差の景観を特徴付ける。
2次アクティベーションを持つ深層ニューラルネットワークは、類似した景観特性の恩恵を受けることが証明された。
論文 参考訳(メタデータ) (2019-12-31T22:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。