論文の概要: Neural Collapse is Globally Optimal in Deep Regularized ResNets and Transformers
- arxiv url: http://arxiv.org/abs/2505.15239v1
- Date: Wed, 21 May 2025 08:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.218284
- Title: Neural Collapse is Globally Optimal in Deep Regularized ResNets and Transformers
- Title(参考訳): ニューラル崩壊は、深い正規化されたResNetとトランスフォーマーでグローバルに最適である
- Authors: Peter Súkeník, Christoph H. Lampert, Marco Mondelli,
- Abstract要約: クロスエントロピーや平均二乗誤差損失で訓練されたLayerNormを用いたディープ・正規化変圧器と残留ネットワーク(ResNet)のグローバル最適性がほぼ崩壊していることを証明する。
我々の理論的結果は、コンピュータビジョンと言語データセットの実験によって支持されており、深さが大きくなるにつれて神経崩壊が実際に顕著になることを示している。
- 参考スコア(独自算出の注目度): 33.441694038617506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The empirical emergence of neural collapse -- a surprising symmetry in the feature representations of the training data in the penultimate layer of deep neural networks -- has spurred a line of theoretical research aimed at its understanding. However, existing work focuses on data-agnostic models or, when data structure is taken into account, it remains limited to multi-layer perceptrons. Our paper fills both these gaps by analyzing modern architectures in a data-aware regime: we prove that global optima of deep regularized transformers and residual networks (ResNets) with LayerNorm trained with cross entropy or mean squared error loss are approximately collapsed, and the approximation gets tighter as the depth grows. More generally, we formally reduce any end-to-end large-depth ResNet or transformer training into an equivalent unconstrained features model, thus justifying its wide use in the literature even beyond data-agnostic settings. Our theoretical results are supported by experiments on computer vision and language datasets showing that, as the depth grows, neural collapse indeed becomes more prominent.
- Abstract(参考訳): 深層ニューラルネットワークの垂直層におけるトレーニングデータの特徴表現の驚くべき対称性である神経崩壊の実証的な発生は、その理解を目的とした理論研究のラインを刺激している。
しかし、既存の研究はデータに依存しないモデルやデータ構造を考慮した場合、多層パーセプトロンに限られる。
本稿では,データ・アウェア・システムにおける最新のアーキテクチャを解析することにより,これらのギャップを埋める。我々は,クロスエントロピーや平均二乗誤差損失でトレーニングされたLayerNormを用いたディープ・正規化トランスフォーマーと残留ネットワーク(ResNet)のグローバル最適化がほぼ崩壊し,深度が大きくなるにつれて近似がより厳密になることを示す。
より一般的には、エンド・ツー・エンドの大規模ResNetトレーニングやトランスフォーマートレーニングを同等の制約のない機能モデルに正式に削減し、データに依存しない設定を超えて、文献で広く使われていることを正当化します。
我々の理論的結果は、コンピュータビジョンと言語データセットの実験によって支持されており、深さが大きくなるにつれて神経崩壊が実際に顕著になることを示している。
関連論文リスト
- Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Entropy-based Guidance of Deep Neural Networks for Accelerated Convergence and Improved Performance [0.8749675983608172]
完全に接続された畳み込みニューラルネットワークの処理データとしてエントロピーの変化を測定するために、新しい数学的結果を得る。
ネットワーク処理データとしてのエントロピーの変化を効果的に測定することにより、良好なネットワークに不可欠なパターンを視覚化し、同定することができる。
ベンチマークデータセットにおける画像圧縮、画像分類、イメージセグメンテーションの実験は、これらの損失がニューラルネットワークを誘導し、少ない次元でリッチな潜在データ表現を学習することを示した。
論文 参考訳(メタデータ) (2023-08-28T23:33:07Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are
Better Than One [32.01675089157679]
本稿では,複数の弱い深度予測器の強度を統合し,包括的かつ正確な深度予測器を構築することを提案する。
具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。
その結果、トランスフォーマー支援深度アンサンブル(TEDepth)と呼ばれるモデルでは、従来の最先端手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2021-11-16T09:09:05Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。