論文の概要: Hadamard Domain Training with Integers for Class Incremental Quantized
Learning
- arxiv url: http://arxiv.org/abs/2310.03675v1
- Date: Thu, 5 Oct 2023 16:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 15:24:09.909322
- Title: Hadamard Domain Training with Integers for Class Incremental Quantized
Learning
- Title(参考訳): インテガーを用いたクラスインクリメンタル量子学習のためのアダマールドメイントレーニング
- Authors: Martin Schiemer, Clemens JS Schaefer, Jayden Parker Vap, Mark James
Horeni, Yu Emma Wang, Juan Ye, and Siddharth Joshi
- Abstract要約: 継続的な学習は、リソース制約のあるエッジプラットフォームにとってコストを抑えることができる。
本稿では,整数行列の乗算のみを用いて,低精度の学習を可能にする手法を提案する。
行列乗算の入力を8ビットのアキュムレータで4ビットまで量子化しながら、0.5%未満の精度と3%の精度の劣化を実現する。
- 参考スコア(独自算出の注目度): 1.4416751609100908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning is a desirable feature in many modern machine learning
applications, which allows in-field adaptation and updating, ranging from
accommodating distribution shift, to fine-tuning, and to learning new tasks.
For applications with privacy and low latency requirements, the compute and
memory demands imposed by continual learning can be cost-prohibitive for
resource-constraint edge platforms. Reducing computational precision through
fully quantized training (FQT) simultaneously reduces memory footprint and
increases compute efficiency for both training and inference. However,
aggressive quantization especially integer FQT typically degrades model
accuracy to unacceptable levels. In this paper, we propose a technique that
leverages inexpensive Hadamard transforms to enable low-precision training with
only integer matrix multiplications. We further determine which tensors need
stochastic rounding and propose tiled matrix multiplication to enable low-bit
width accumulators. We demonstrate the effectiveness of our technique on
several human activity recognition datasets and CIFAR100 in a class incremental
learning setting. We achieve less than 0.5% and 3% accuracy degradation while
we quantize all matrix multiplications inputs down to 4-bits with 8-bit
accumulators.
- Abstract(参考訳): 継続的な学習は多くの現代の機械学習アプリケーションで望ましい機能であり、分散シフトの調整から微調整、新しいタスクの学習まで、フィールド内での適応と更新が可能である。
プライバシと低レイテンシ要件を持つアプリケーションでは、継続的な学習によって課される計算とメモリの要求は、リソース制約のあるエッジプラットフォームではコストを抑えることができる。
完全量子化トレーニング(FQT)による計算精度の低減は、同時にメモリフットプリントを削減し、トレーニングと推論の両方の計算効率を向上させる。
しかし、アグレッシブ量子化、特に整数 FQT はモデル精度を許容できないレベルに低下させる。
本稿では,安価なアダマール変換を応用して,整数行列の乗算のみによる低精度トレーニングを実現する手法を提案する。
さらに,どのテンソルに確率的丸めが必要なのかを判断し,低ビット幅アキュムレータを実現するためのタイル行列乗法を提案する。
本手法は,複数の人間行動認識データセットとcifar100を用いて,授業のインクリメンタル学習環境での有効性を示す。
行列乗算の入力を8ビットのアキュムレータで4ビットまで量子化しながら、0.5%未満と3%の精度劣化を達成する。
関連論文リスト
- Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Is Integer Arithmetic Enough for Deep Learning Training? [2.9136421025415205]
浮動小数点演算を低ビット整数演算に置き換えることは、ディープラーニングモデルのエネルギー、メモリフットプリント、レイテンシを節約するための有望なアプローチである。
本稿では,フォワードパス,バックプロパゲーション,勾配降下を含む完全関数型整数学習パイプラインを提案する。
提案手法は, 視覚変換器, オブジェクト検出, セマンティックセグメンテーションなど, 多様なタスクに有効であることを示す。
論文 参考訳(メタデータ) (2022-07-18T22:36:57Z) - Low-rank lottery tickets: finding efficient low-rank neural networks via
matrix differential equations [2.3488056916440856]
効率的なローランクワークを見つけるための新しいアルゴリズムを提案する。
これらの作業は、トレーニングフェーズですでに決定され、適応されています。
本手法は,所望の近似精度を達成するために,訓練中のランクを自動的に動的に適応させる。
論文 参考訳(メタデータ) (2022-05-26T18:18:12Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Memristive Stochastic Computing for Deep Learning Parameter Optimization [1.6344851071810071]
コンピューティング(sc)は、ビットストリームとデジタルロジックを用いた様々な演算処理の低コストかつ低消費電力化を可能にするコンピューティングパラダイムである。
40nmの補完金属酸化物半導体(CMOS)プロセスを使用することで、拡張可能なアーキテクチャは1.55mm$2$を占め、文字認識タスクのために訓練されている間、畳み込みニューラルネットワーク(CNN)のパラメータを最適化する際に約167$mu$Wを消費します。
論文 参考訳(メタデータ) (2021-03-11T07:10:32Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。