論文の概要: Leveraging Intermediate Neural Collapse with Simplex ETFs for Efficient Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2412.00884v1
- Date: Sun, 01 Dec 2024 16:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:43:34.613822
- Title: Leveraging Intermediate Neural Collapse with Simplex ETFs for Efficient Deep Neural Networks
- Title(参考訳): 効率的な深部ニューラルネットワークのための簡易ETFを用いた中間的神経崩壊の活用
- Authors: Emily Liu,
- Abstract要約: ニューラルネットワークの最終層を単純なETFに制約することで、モデルの精度を犠牲にすることなくトレーニング可能なパラメータの数を削減できることを示す。
本稿では, 汎用フレームワークであるAdaptive-ETFと, トランスフォーマブロック内のフィードフォワード層に単純なETF制約を適用するETF-Transformerを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Neural collapse is a phenomenon observed during the terminal phase of neural network training, characterized by the convergence of network activations, class means, and linear classifier weights to a simplex equiangular tight frame (ETF), a configuration of vectors that maximizes mutual distance within a subspace. This phenomenon has been linked to improved interpretability, robustness, and generalization in neural networks. However, its potential to guide neural network training and regularization remains underexplored. Previous research has demonstrated that constraining the final layer of a neural network to a simplex ETF can reduce the number of trainable parameters without sacrificing model accuracy. Furthermore, deep fully connected networks exhibit neural collapse not only in the final layer but across all layers beyond a specific effective depth. Using these insights, we propose two novel training approaches: Adaptive-ETF, a generalized framework that enforces simplex ETF constraints on all layers beyond the effective depth, and ETF-Transformer, which applies simplex ETF constraints to the feedforward layers within transformer blocks. We show that these approaches achieve training and testing performance comparable to those of their baseline counterparts while significantly reducing the number of learnable parameters.
- Abstract(参考訳): ニューラル崩壊(Neural collapse)は、ニューラルネットワークトレーニングの最終段階において観測される現象であり、ネットワーク活性化、クラス平均、線形分類器重みを、部分空間内の相互距離を最大化するベクトルの構成である単純な等角的タイトフレーム(ETF)に収束させることによって特徴づけられる。
この現象は、ニューラルネットワークの解釈可能性、堅牢性、一般化の改善と関連付けられている。
しかし、ニューラルネットワークのトレーニングと正規化を導く可能性はまだ未定である。
従来の研究では、ニューラルネットワークの最終層を単純なETFに制限することで、モデルの精度を犠牲にすることなくトレーニング可能なパラメータの数を削減できることが示されている。
さらに、ディープフルコネクテッドネットワークは最終層だけでなく、特定の有効深度を超えるすべての層にわたって神経崩壊を示す。
これらの知見を用いて, 実効深度を超えるすべての層に単純なETF制約を強制する一般化されたフレームワークであるAdaptive-ETFと, トランスフォーマーブロック内のフィードフォワード層に単純なETF制約を適用するETF-Transformerの2つの新しいトレーニング手法を提案する。
これらの手法は,学習可能なパラメータの数を著しく削減しつつ,ベースラインに匹敵するトレーニングとテストのパフォーマンスを実現する。
関連論文リスト
- Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Improving the Trainability of Deep Neural Networks through Layerwise
Batch-Entropy Regularization [1.3999481573773072]
ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。
損失関数にバッチエントロピー正規化項を追加するだけで、500層からなる「バニラ」完全連結ネットワークと畳み込みニューラルネットワークをトレーニングできることが示される。
論文 参考訳(メタデータ) (2022-08-01T20:31:58Z) - Biologically Plausible Training of Deep Neural Networks Using a Top-down
Credit Assignment Network [32.575847142016585]
トップダウン・クレジット・アサインメント・ネットワーク(TDCA-network)は、トップダウン・クレジット・アサインメント・ネットワーク(TDCA-network)を用いてボトムアップ・ネットワークを訓練するように設計されている。
TDCAネットワークは、ニューラルネットワークトレーニングで広く使われている従来の損失関数とバックプロパゲーションアルゴリズムの代用として機能する。
その結果、TDCA-networkは様々なデータセットでニューラルネットワークをトレーニングする有望な可能性を示唆している。
論文 参考訳(メタデータ) (2022-08-01T07:14:37Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - LocalDrop: A Hybrid Regularization for Deep Neural Networks [98.30782118441158]
本稿では,ローカルラデマチャー複雑性を用いたニューラルネットワークの正規化のための新しい手法であるLocalDropを提案する。
フルコネクテッドネットワーク(FCN)と畳み込みニューラルネットワーク(CNN)の両方のための新しい正規化機能は、ローカルラデマチャー複雑さの上限提案に基づいて開発されました。
論文 参考訳(メタデータ) (2021-03-01T03:10:11Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - A Mean-field Analysis of Deep ResNet and Beyond: Towards Provable
Optimization Via Overparameterization From Depth [19.866928507243617]
勾配降下(SGD)を伴う深層ニューラルネットワークのトレーニングは、現実世界の風景でのトレーニング損失をゼロにすることが多い。
我々は,アラーがグローバルであるという意味で優れたトレーニングを享受する,無限大深部残差ネットワークの新たな限界を提案する。
論文 参考訳(メタデータ) (2020-03-11T20:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。