論文の概要: Understanding and Minimising Outlier Features in Neural Network Training
- arxiv url: http://arxiv.org/abs/2405.19279v2
- Date: Wed, 06 Nov 2024 22:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 00:48:47.390730
- Title: Understanding and Minimising Outlier Features in Neural Network Training
- Title(参考訳): ニューラルネットワークトレーニングにおける外部特徴の理解と最小化
- Authors: Bobby He, Lorenzo Noci, Daniele Paliotta, Imanol Schlag, Thomas Hofmann,
- Abstract要約: Outlier Features (OFs) は、ニューラルネットワーク(NN)の幅の平均よりも、アクティベーションがかなり大きいニューロンである。
建築と最適化の選択がOFに与える影響について検討し、トレーニング中のOFを最小化するための実践的な洞察を提供する。
新規な非正規化変圧器ブロック,outlier Protected blockを導入し,非対角型プリコンディショニングオプティマイザの既知の利点を示す。
- 参考スコア(独自算出の注目度): 33.980628229566555
- License:
- Abstract: Outlier Features (OFs) are neurons whose activation magnitudes significantly exceed the average over a neural network's (NN) width. They are well known to emerge during standard transformer training and have the undesirable effect of hindering quantisation in afflicted models. Despite their practical importance, little is known behind why OFs emerge during training, nor how one can minimise them. Our work focuses on the above questions, first identifying several quantitative metrics, such as the kurtosis over neuron activation norms, to measure OFs. With these metrics, we study how architectural and optimisation choices influence OFs, and provide practical insights to minimise OFs during training. As highlights, we introduce a novel unnormalised transformer block, the Outlier Protected block, and present a previously unknown benefit of non-diagonal preconditioning optimisers, finding both approaches to significantly reduce OFs and improve quantisation without compromising convergence speed, at scales of up to 7B parameters. Notably, our combination of OP block and non-diagonal preconditioner (SOAP) achieves 14.87 int8 weight-and-activation perplexity (from 14.71 in standard precision), compared to 63.4 int8 perplexity (from 16.00) with a default OF-prone combination of Pre-Norm model and Adam, when quantising OPT-125m models post-training. Overall, our findings shed new light on our understanding of, our ability to prevent, and the complexity of this important aspect of NN training dynamics.
- Abstract(参考訳): Outlier Features (OFs) は、ニューラルネットワーク(NN)の幅の平均よりも、アクティベーションがかなり大きいニューロンである。
標準変圧器訓練中に出現し、苦しめられたモデルにおいて量子化を妨げるという望ましくない効果を持つことが知られている。
実際の重要性にもかかわらず、トレーニング中にOFが出現する理由や、それを最小化する方法については、ほとんど分かっていない。
我々の研究は上記の疑問に焦点をあて、まず、OFを測定するために、ニューロンの活性化規範に関するクルトーシスのようないくつかの定量的指標を同定する。
これらのメトリクスを用いて、アーキテクチャと最適化がOFにどのように影響するかを調べ、トレーニング中のOFを最小化するための実践的な洞察を提供する。
ここでは,新しい非正規化変圧器ブロック,outlier Protected blockを導入し,最大7Bパラメータのスケールで,OFを大幅に削減し,量子化を改善するための2つのアプローチを提案する。
特に、OPブロックと非対角プレコンディショナー(SOAP)の組み合わせは、OPT-125mモデルの後トレーニングにおけるデフォルトのOF-prone組み合わせと63.4 int8パープレクシリティ(16.00)と比較して14.87 int8の重みとアクティベーションのパープレクシリティ(標準精度14.71)を達成する。
全体として、我々の発見は、NNトレーニングダイナミクスの重要な側面の理解、予防能力、および複雑さに対する新たな光を放ちました。
関連論文リスト
- Discovering Long-Term Effects on Parameter Efficient Fine-tuning [36.83255498301937]
事前訓練されたニューラルネットワーク(Annns)は、堅牢なパターン認識機能を示す。
アンとBNNはヒト脳、特にBNNと大きな類似点を共有している
アンは微調整によって新しい知識を得ることができる。
論文 参考訳(メタデータ) (2024-08-24T03:27:29Z) - Post-Training Overfitting Mitigation in DNN Classifiers [31.513866929577336]
学習後MMベースの正規化は,クラス不均衡やオーバートレーニングによる非マチュラスなオーバーフィッティングを著しく軽減することを示す。
攻撃に対する弾力性はあるが、クリーン(無攻撃)な一般化を損なう敵の訓練とは異なり、敵の学習に起因したアプローチを実証する。
論文 参考訳(メタデータ) (2023-09-28T20:16:24Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Entropy-Based Modeling for Estimating Soft Errors Impact on Binarized
Neural Network Inference [2.249916681499244]
本稿では,SEU(Single-event upset)とMBU(Multi-bit upset)の影響を階層間および選択した畳み込みニューラルネットワークの各層で明らかにする比較的正確な統計モデルを提案する。
これらのモデルは、安全クリティカルなアプリケーションで採用する前に、NNトポロジのエラー-レジリエンスのマグニチュードを評価するために使用できる。
論文 参考訳(メタデータ) (2020-04-10T16:10:24Z) - Analyzing Redundancy in Pretrained Transformer Models [41.07850306314594]
我々は、一般的な冗長性とタスク固有の冗長性という2つのクラスに分類される冗長性の概念を定義します。
提案手法は,ニューロンの10%以上を使用しながら,97%の性能を維持した効率的な特徴に基づく伝達学習手法である。
論文 参考訳(メタデータ) (2020-04-08T14:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。