Fugu-MT 論文翻訳(概要): Inverted Activations

論文の概要: Inverted Activations

arxiv url: http://arxiv.org/abs/2407.15545v1
Date: Mon, 22 Jul 2024 11:11:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 15:11:26.888505
Title: Inverted Activations
Title（参考訳）: 反転活性化
Authors: Georgii Novikov, Ivan Oseledets,
Abstract要約: 本稿では, ポイントワイド非線形層におけるアクティベーションテンソルの取扱いの変更を提案する。我々の方法は代わりに出力テンソルを節約し、後続の層が入力テンソルを節約するために必要なメモリを削減します。実験の結果,トレーニング精度に影響を与えることなくメモリ使用量を大幅に削減できることが確認された。
参考スコア（独自算出の注目度）: 5.070981175240306
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The scaling of neural networks with increasing data and model sizes necessitates more efficient deep learning algorithms. This paper addresses the memory footprint challenge in neural network training by proposing a modification to the handling of activation tensors in pointwise nonlinearity layers. Traditionally, these layers save the entire input tensor for the backward pass, leading to substantial memory use. Our method involves saving the output tensor instead, reducing the memory required when the subsequent layer also saves its input tensor. This approach is particularly beneficial for transformer-based architectures like GPT, BERT, Mistral, and Llama. Application of our method involves taken an inverse function of nonlinearity. To the best of our knowledge, that can not be done analitically and instead we buid an accurate approximations using simpler functions. Experimental results confirm that our method significantly reduces memory usage without affecting training accuracy. The implementation is available at https://github.com/PgLoLo/optiacts.
Abstract（参考訳）: データとモデルサイズの増加によるニューラルネットワークのスケーリングは、より効率的なディープラーニングアルゴリズムを必要とする。本稿では, ニューラルネットワークトレーニングにおけるメモリフットプリントの課題に対して, ポイントワイド非線形層におけるアクティベーションテンソルのハンドリングを改良することを提案する。伝統的に、これらのレイヤは入力テンソル全体を後方パスに保存し、メモリ使用量を大幅に削減する。我々の方法は代わりに出力テンソルを節約し、後続の層が入力テンソルを節約するために必要なメモリを削減します。このアプローチは、GPT、BERT、Mistral、Llamaといったトランスフォーマーベースのアーキテクチャにとって特に有益である。この手法の応用は、非線形性の逆関数を取ることである。我々の知る限りでは、それは鎮痛的に行うことができず、代わりにより単純な関数を使って正確な近似を埋める。実験の結果,トレーニング精度に影響を与えることなくメモリ使用量を大幅に削減できることが確認された。実装はhttps://github.com/PgLoLo/optiacts.comで公開されている。

関連論文リスト

Tensor-GaLore: Memory-Efficient Training via Gradient Tensor Decomposition [93.98343072306619]
本研究では,高次テンソル重み付きニューラルネットワークの効率的なトレーニング手法であるNavier-GaLoreを提案する。様々なPDEタスクの中で、Navier-GaLoreはメモリ節約を実現し、最大75%のメモリ使用量を削減している。
論文参考訳（メタデータ） (2025-01-04T20:51:51Z)
Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文参考訳（メタデータ） (2023-07-20T16:00:19Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Towards Memory- and Time-Efficient Backpropagation for Training Spiking Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。 BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文参考訳（メタデータ） (2023-02-28T05:01:01Z)
Nesting Forward Automatic Differentiation for Memory-Efficient Deep Neural Network Training [23.536294640280087]
本稿では,メモリ効率向上のための要素活性化関数として,ネストフォワード自動微分(フォワードAD)を提案する。評価の結果,Nested Forward-ADはメモリフットプリントをベースラインモデルよりも1.97倍削減できることがわかった。
論文参考訳（メタデータ） (2022-09-22T04:48:48Z)
Few-Bit Backward: Quantized Gradients of Activation Functions for Memory Footprint Reduction [4.243810214656324]
メモリフットプリントは、大規模なニューラルネットワークトレーニングの主要な制限要因のひとつだ。本稿では, 点次非線形関数の残留勾配の最適量子化を計算するための体系的手法を提案する。このような近似は、活性化関数の微分の最適一貫した近似を計算することで実現できることを示す。
論文参考訳（メタデータ） (2022-02-01T14:51:38Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Efficient Neural Network Training via Forward and Backward Propagation Sparsification [26.301103403328312]
本研究では, 完全スパース前方・後方パスを用いた効率的なスパーストレーニング手法を提案する。私たちのアルゴリズムは、トレーニングプロセスを最大で桁違いに高速化する上で、はるかに効果的です。
論文参考訳（メタデータ） (2021-11-10T13:49:47Z)
ActNN: Reducing Training Memory Footprint via 2-Bit Activation Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。 ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文参考訳（メタデータ） (2021-04-29T05:50:54Z)
Hessian Aware Quantization of Spiking Neural Networks [1.90365714903665]
ニューロモルフィックアーキテクチャは、可変ビット精度と局所ビット精度の大規模並列計算を可能にする。 SNNトレーニングの現在の勾配に基づく方法は、複数の状態変数を持つ複雑なニューロンモデルを使用する。我々は、勾配に基づくトレーニングと互換性を保ちつつ、状態変数の数を4倍に削減する単純化されたニューロンモデルを提案する。
論文参考訳（メタデータ） (2021-04-29T05:27:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。