論文の概要: Understanding and Minimising Outlier Features in Neural Network Training
- arxiv url: http://arxiv.org/abs/2405.19279v1
- Date: Wed, 29 May 2024 17:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:02:26.483138
- Title: Understanding and Minimising Outlier Features in Neural Network Training
- Title(参考訳): ニューラルネットワークトレーニングにおける外部特徴の理解と最小化
- Authors: Bobby He, Lorenzo Noci, Daniele Paliotta, Imanol Schlag, Thomas Hofmann,
- Abstract要約: Outlier Features (OF) は、ニューラルネットワーク(NN)の幅の平均よりも、アクティベーション等級がかなり大きいニューロンである。
建築と最適化の選択がOFに与える影響について検討し、トレーニング中のOFを最小化するための実践的な洞察を提供する。
- 参考スコア(独自算出の注目度): 33.980628229566555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Outlier Features (OF) are neurons whose activation magnitudes significantly exceed the average over a neural network's (NN) width. They are well known to emerge during standard transformer training and have the undesirable effect of hindering quantisation in afflicted models. Despite their practical importance, little is known behind why OFs emerge during training, nor how one can minimise them. Our work focuses on the above questions, first identifying several quantitative metrics, such as the kurtosis over neuron activation norms, to measure OFs. With these metrics, we study how architectural and optimisation choices influence OFs, and provide practical insights to minimise OFs during training. As highlights, we emphasise the importance of controlling signal propagation throughout training, and propose the Outlier Protected transformer block, which removes standard Pre-Norm layers to mitigate OFs, without loss of convergence speed or training stability. Overall, our findings shed new light on our understanding of, our ability to prevent, and the complexity of this important facet in NN training dynamics.
- Abstract(参考訳): Outlier Features (OF) は、ニューラルネットワーク(NN)の幅の平均よりも、アクティベーションの規模がかなり大きいニューロンである。
標準変圧器訓練中に出現し、苦しめられたモデルにおいて量子化を妨げるという望ましくない効果を持つことが知られている。
実際の重要性にもかかわらず、トレーニング中にOFが出現する理由や、それを最小化する方法については、ほとんど分かっていない。
我々の研究は上記の疑問に焦点をあて、まず、OFを測定するために、ニューロンアクティベーション規範に対するクルトシスのようないくつかの定量的指標を同定する。
これらのメトリクスを用いて、アーキテクチャと最適化がOFにどのように影響するかを調べ、トレーニング中のOFを最小化するための実践的な洞察を提供する。
本稿では,トレーニング中における信号伝達の制御の重要性を強調し,コンバージェンス速度やトレーニング安定性を損なうことなく,標準のプリノーム層を除去し,OFを緩和するoutlier Protected Transformerブロックを提案する。
全体としては、NNトレーニングのダイナミックスにおいて、私たちの理解、予防する能力、そしてこの重要な側面の複雑さについて、新たな光を当てています。
関連論文リスト
- Discovering Long-Term Effects on Parameter Efficient Fine-tuning [36.83255498301937]
事前訓練されたニューラルネットワーク(Annns)は、堅牢なパターン認識機能を示す。
アンとBNNはヒト脳、特にBNNと大きな類似点を共有している
アンは微調整によって新しい知識を得ることができる。
論文 参考訳(メタデータ) (2024-08-24T03:27:29Z) - Post-Training Overfitting Mitigation in DNN Classifiers [31.513866929577336]
学習後MMベースの正規化は,クラス不均衡やオーバートレーニングによる非マチュラスなオーバーフィッティングを著しく軽減することを示す。
攻撃に対する弾力性はあるが、クリーン(無攻撃)な一般化を損なう敵の訓練とは異なり、敵の学習に起因したアプローチを実証する。
論文 参考訳(メタデータ) (2023-09-28T20:16:24Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Entropy-Based Modeling for Estimating Soft Errors Impact on Binarized
Neural Network Inference [2.249916681499244]
本稿では,SEU(Single-event upset)とMBU(Multi-bit upset)の影響を階層間および選択した畳み込みニューラルネットワークの各層で明らかにする比較的正確な統計モデルを提案する。
これらのモデルは、安全クリティカルなアプリケーションで採用する前に、NNトポロジのエラー-レジリエンスのマグニチュードを評価するために使用できる。
論文 参考訳(メタデータ) (2020-04-10T16:10:24Z) - Analyzing Redundancy in Pretrained Transformer Models [41.07850306314594]
我々は、一般的な冗長性とタスク固有の冗長性という2つのクラスに分類される冗長性の概念を定義します。
提案手法は,ニューロンの10%以上を使用しながら,97%の性能を維持した効率的な特徴に基づく伝達学習手法である。
論文 参考訳(メタデータ) (2020-04-08T14:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。