論文の概要: FF-INT8: Efficient Forward-Forward DNN Training on Edge Devices with INT8 Precision
- arxiv url: http://arxiv.org/abs/2506.22771v1
- Date: Sat, 28 Jun 2025 06:16:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.556724
- Title: FF-INT8: Efficient Forward-Forward DNN Training on Edge Devices with INT8 Precision
- Title(参考訳): FF-INT8:INT8精度のエッジデバイス上での効率的前方DNNトレーニング
- Authors: Jingxiao Ma, Priyadarshini Panda, Sherief Reda,
- Abstract要約: 本稿では、FFの層間戦略を利用して勾配量子化を安定化するINT8量子化学習手法を提案する。
NVIDIA Jetson Orin Nanoボードで行われた実験では、トレーニングが4.6%速く、省エネが8.3%、メモリ使用量が27.0%減少した。
- 参考スコア(独自算出の注目度): 7.461536872552009
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Backpropagation has been the cornerstone of neural network training for decades, yet its inefficiencies in time and energy consumption limit its suitability for resource-constrained edge devices. While low-precision neural network quantization has been extensively researched to speed up model inference, its application in training has been less explored. Recently, the Forward-Forward (FF) algorithm has emerged as a promising alternative to backpropagation, replacing the backward pass with an additional forward pass. By avoiding the need to store intermediate activations for backpropagation, FF can reduce memory footprint, making it well-suited for embedded devices. This paper presents an INT8 quantized training approach that leverages FF's layer-by-layer strategy to stabilize gradient quantization. Furthermore, we propose a novel "look-ahead" scheme to address limitations of FF and improve model accuracy. Experiments conducted on NVIDIA Jetson Orin Nano board demonstrate 4.6% faster training, 8.3% energy savings, and 27.0% reduction in memory usage, while maintaining competitive accuracy compared to the state-of-the-art.
- Abstract(参考訳): バックプロパゲーションは、何十年にもわたってニューラルネットワークトレーニングの基盤となっているが、時間とエネルギー消費の非効率さは、リソースに制約のあるエッジデバイスに対する適合性を制限している。
モデル推論を高速化するために、低精度ニューラルネットワーク量子化が広く研究されているが、トレーニングにおけるその応用は研究されていない。
近年,バックプロパゲーションの代替としてフォワードフォワード(FF)アルゴリズムが登場し,後方パスをフォワードパスに置き換えている。
バックプロパゲーションのための中間アクティベーションを格納する必要がないため、FFはメモリフットプリントを削減し、組み込みデバイスに適している。
本稿では、FFの層間戦略を利用して勾配量子化を安定化するINT8量子化学習手法を提案する。
さらに,FFの限界に対処し,モデル精度を向上させる新しい「ルックアヘッド」方式を提案する。
NVIDIA Jetson Orin Nanoボードで行われた実験では、トレーニングが4.6%速く、エネルギーが8.3%節約され、メモリ使用量が27.0%削減された。
関連論文リスト
- Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - DNN Memory Footprint Reduction via Post-Training Intra-Layer Multi-Precision Quantization [0.0]
本稿では,資源制約エッジデバイス上でのディープニューラルネットワーク(DNN)モデルのメモリフットプリントを効果的に削減する手法を提案する。
提案手法は,PTILMPQ (Post-Training intra-Layer Multi-Precision Quantization) と名付けられ,トレーニング後の量子化手法を用いて,広範囲なトレーニングデータを必要としない。
論文 参考訳(メタデータ) (2024-04-03T15:06:09Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Efficient On-device Training via Gradient Filtering [14.484604762427717]
デバイス上でのCNNモデルトレーニングを可能にする新しい勾配フィルタリング手法を提案する。
我々のアプローチは勾配写像の特異な要素が少ない特別な構造を生成する。
弊社のアプローチは、デバイス上でのトレーニングの大きな可能性を秘めた、新しい研究の方向性を開く。
論文 参考訳(メタデータ) (2023-01-01T02:33:03Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。