論文の概要: FPRaker: A Processing Element For Accelerating Neural Network Training
- arxiv url: http://arxiv.org/abs/2010.08065v1
- Date: Thu, 15 Oct 2020 23:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 05:04:21.582284
- Title: FPRaker: A Processing Element For Accelerating Neural Network Training
- Title(参考訳): FPRaker: ニューラルネットワークトレーニングを加速するための処理要素
- Authors: Omar Mohamed Awad, Mostafa Mahmoud, Isak Edo, Ali Hadi Zadeh, Ciaran
Bannon, Anand Jayarajan, Gennady Pekhimenko, Andreas Moshovos
- Abstract要約: トレーニングアクセラレータを構成するための処理要素であるFPRakerを紹介する。
FPRakerは複数の浮動小数点乗算演算を同時に処理し、その結果を高い精度の累積器に蓄積する。
- 参考スコア(独自算出の注目度): 3.249681609416566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present FPRaker, a processing element for composing training accelerators.
FPRaker processes several floating-point multiply-accumulation operations
concurrently and accumulates their result into a higher precision accumulator.
FPRaker boosts performance and energy efficiency during training by taking
advantage of the values that naturally appear during training. Specifically, it
processes the significand of the operands of each multiply-accumulate as a
series of signed powers of two. The conversion to this form is done on-the-fly.
This exposes ineffectual work that can be skipped: values when encoded have few
terms and some of them can be discarded as they would fall outside the range of
the accumulator given the limited precision of floating-point. We demonstrate
that FPRaker can be used to compose an accelerator for training and that it can
improve performance and energy efficiency compared to using conventional
floating-point units under ISO-compute area constraints. We also demonstrate
that FPRaker delivers additional benefits when training incorporates pruning
and quantization. Finally, we show that FPRaker naturally amplifies performance
with training methods that use a different precision per layer.
- Abstract(参考訳): 本稿では,トレーニングアクセラレータを構成する処理要素であるfprakerを提案する。
FPRakerは複数の浮動小数点乗算演算を同時に処理し、その結果を高い精度の累積器に蓄積する。
FPRakerは、トレーニング中に自然に現れる値を利用して、トレーニング中のパフォーマンスとエネルギー効率を高める。
具体的には、各乗算のオペランドのシグニフィカンドを2の符号付きパワーの列として処理する。
この形式への変換はオンザフライで行われる。
これはスキップできる非効率な作業を公開する:エンコードされたときの値にはいくつかの用語があり、浮動小数点の限られた精度でアキュムレータの範囲外に落ちるため、いくつかは破棄できる。
fpraker を用いて学習用加速器の構成を行い,iso-compute 領域制約下での従来の浮動小数点単位と比較して性能とエネルギー効率を向上できることを実証した。
また,pruningとquantizationを組み込んだトレーニングでは,fprakerにさらにメリットがあることを示す。
最後に、FPRakerはレイヤーごとに異なる精度のトレーニング手法で自然に性能を増幅することを示す。
関連論文リスト
- IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。
IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Continual Learning in the Frequency Domain [22.415936450558334]
周波数領域における連続学習(CLFD)と呼ばれる新しいフレームワークを提案する。
特徴抽出器の入力特徴について、CLFDはウェーブレット変換を用いて元の入力画像を周波数領域にマッピングする。
クラウド環境とエッジ環境の両方で実施された実験により、CLFDは精度とトレーニング効率の両方において、最先端(SOTA)手法の性能を一貫して改善することが示された。
論文 参考訳(メタデータ) (2024-10-09T07:57:47Z) - iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation [15.97351561456467]
本稿では,iConFormerと呼ばれる新しいPEFT手法,入出力トランスフォーマーを提案する。
インスタンスレベルの特徴変換を可能にする動的アダプタに,入出力ネットワーク(iCoN)を導入する。
具体的に言うと、iCoNは各機能に対してチャネルワイドな畳み込みカーネルを生成し、それを適応畳み込みプロセスを使って変換し、下流タスクに適したタスク固有できめ細かな詳細を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-04T16:06:23Z) - Enhancing Fast Feed Forward Networks with Load Balancing and a Master Leaf Node [49.08777822540483]
高速フィードフォワードネットワーク(FFF)は、入力空間の異なる領域が広いネットワークのニューロンの異なるサブセットを活性化する観察を利用する。
本稿では,FFFアーキテクチャにロードバランシングとマスタリーフ技術を導入し,性能向上とトレーニングプロセスの簡素化を図る。
論文 参考訳(メタデータ) (2024-05-27T05:06:24Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - Making EfficientNet More Efficient: Exploring Batch-Independent
Normalization, Group Convolutions and Reduced Resolution Training [8.411385346896413]
我々は、新しいクラスのアクセラレーターであるGraphcore IPU上で、最先端のEfficientNetモデルの実用効率を改善することに重点を置いている。
i)グループ畳み込みに深い畳み込みを一般化すること、(ii)バッチ正規化性能とバッチ非依存統計量とを一致させるためにプロキシ正規化アクティベーションを追加すること、(iii)トレーニング解像度を下げることによる計算の削減と、高解像度で安価に微調整を行うことにより、このモデル群を拡張した。
論文 参考訳(メタデータ) (2021-06-07T14:10:52Z) - Regularized Evolutionary Population-Based Training [11.624954122221562]
本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Population-Based Training)アルゴリズムを提案する。
EPBTは画像分類ベンチマークを高速かつ正確に学習する。
論文 参考訳(メタデータ) (2020-02-11T06:28:13Z) - Deep Learning Training with Simulated Approximate Multipliers [4.115297590661754]
本稿では、畳み込みニューラルネットワーク(CNN)のトレーニング性能を高めるために、近似乗算器をどのように利用できるかを示す。
トレーニング段階の大部分において、速度、パワー、面積の点で近似乗算器の性能上の利点が得られる。
一方、トレーニングの最終段階の正確な乗算器を用いることで、精度に対する負の影響が減少する。
論文 参考訳(メタデータ) (2019-12-26T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。