論文の概要: Batchless Normalization: How to Normalize Activations Across Instances with Minimal Memory Requirements
- arxiv url: http://arxiv.org/abs/2212.14729v2
- Date: Thu, 25 Jul 2024 08:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 20:16:16.353842
- Title: Batchless Normalization: How to Normalize Activations Across Instances with Minimal Memory Requirements
- Title(参考訳): バッチレス正規化:最小限のメモリ要件を持つインスタンス間でのアクティベーションの正規化
- Authors: Benjamin Berger, Victor Uc Cetina,
- Abstract要約: ニューラルネットワークのトレーニングにおいて、バッチ正規化には多くのメリットがある。
本稿では,これらの問題に対処するための単純かつ簡単な方法を示す。
その他のメリットとして、より大きなモデルをトレーニングするためのハードウェア要件を低くすることで、AI研究の民主化に寄与することが期待できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In training neural networks, batch normalization has many benefits, not all of them entirely understood. But it also has some drawbacks. Foremost is arguably memory consumption, as computing the batch statistics requires all instances within the batch to be processed simultaneously, whereas without batch normalization it would be possible to process them one by one while accumulating the weight gradients. Another drawback is that that distribution parameters (mean and standard deviation) are unlike all other model parameters in that they are not trained using gradient descent but require special treatment, complicating implementation. In this paper, I show a simple and straightforward way to address these issues. The idea, in short, is to add terms to the loss that, for each activation, cause the minimization of the negative log likelihood of a Gaussian distribution that is used to normalize the activation. Among other benefits, this will hopefully contribute to the democratization of AI research by means of lowering the hardware requirements for training larger models.
- Abstract(参考訳): ニューラルネットワークのトレーニングにおいて、バッチ正規化には多くのメリットがある。
しかし、欠点もある。
バッチ統計の計算では、バッチ内のすべてのインスタンスを同時に処理する必要があるのに対して、バッチの正規化がなければ、重み勾配を蓄積しながら、それらをひとつずつ処理することが可能である。
もう一つの欠点は、分布パラメータ(平均偏差と標準偏差)が、勾配勾配を使って訓練されていないが特別な処理を必要とし、実装を複雑にするという点で他のモデルパラメータと異なることである。
本稿では,これらの問題に対処するための単純かつ簡単な方法を示す。
要するに、各活性化に対して、活性化を正規化するために使用されるガウス分布の負の対数可能性の最小化を引き起こす損失に項を加えるという考え方である。
その他のメリットとして、より大きなモデルをトレーニングするためのハードウェア要件を低くすることで、AI研究の民主化に寄与することが期待できる。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Batch Layer Normalization, A new normalization layer for CNNs and RNN [0.0]
本研究では, Batch Layer Normalization (BLN) と呼ばれる新しい正規化層を導入する。
バッチとレイヤの正規化の組み合わせとして、BLNはミニバッチの逆サイズに基づいて、最小バッチと特徴正規化を適切に重み付けする。
実験結果は,畳み込みニューラルネットワークと反復ニューラルネットワークの両方におけるBLNの適用ポテンシャルと,バッチ正規化および層正規化よりも高速な収束性を示す。
論文 参考訳(メタデータ) (2022-09-19T10:12:51Z) - Variance-Aware Weight Initialization for Point Convolutional Neural
Networks [23.46612653627991]
連続的畳み込みの多さを統一する枠組みを提案する。
このフレームワークは、類似性があり、場合によってはパフォーマンスが向上しながら、バッチの正規化を回避できることを示す。
論文 参考訳(メタデータ) (2021-12-07T15:47:14Z) - Double Forward Propagation for Memorized Batch Normalization [68.34268180871416]
バッチ正規化(BN)は、ディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。
より正確でロバストな統計値を得るために,複数の最近のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。
関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2020-10-10T08:48:41Z) - Training Deep Neural Networks Without Batch Normalization [4.266320191208303]
この研究はバッチ正規化を詳細に研究し、重量正規化、勾配クリッピング、ドロップアウトといった他の手法と比較する。
この研究の主な目的は、トレーニングプロセスの適応によってバッチ正規化が除去された場合、ネットワークを効果的にトレーニングできるかどうかを判断することである。
論文 参考訳(メタデータ) (2020-08-18T15:04:40Z) - Cross-Iteration Batch Normalization [67.83430009388678]
本稿では,CBN(Cross-It Batch Normalization)を提案する。
CBNは、提案した補償手法を使わずに、元のバッチ正規化と過去の繰り返しの統計の直接計算より優れていた。
論文 参考訳(メタデータ) (2020-02-13T18:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。