論文の概要: FPRaker: A Processing Element For Accelerating Neural Network Training
- arxiv url: http://arxiv.org/abs/2010.08065v1
- Date: Thu, 15 Oct 2020 23:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 05:04:21.582284
- Title: FPRaker: A Processing Element For Accelerating Neural Network Training
- Title(参考訳): FPRaker: ニューラルネットワークトレーニングを加速するための処理要素
- Authors: Omar Mohamed Awad, Mostafa Mahmoud, Isak Edo, Ali Hadi Zadeh, Ciaran
Bannon, Anand Jayarajan, Gennady Pekhimenko, Andreas Moshovos
- Abstract要約: トレーニングアクセラレータを構成するための処理要素であるFPRakerを紹介する。
FPRakerは複数の浮動小数点乗算演算を同時に処理し、その結果を高い精度の累積器に蓄積する。
- 参考スコア(独自算出の注目度): 3.249681609416566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present FPRaker, a processing element for composing training accelerators.
FPRaker processes several floating-point multiply-accumulation operations
concurrently and accumulates their result into a higher precision accumulator.
FPRaker boosts performance and energy efficiency during training by taking
advantage of the values that naturally appear during training. Specifically, it
processes the significand of the operands of each multiply-accumulate as a
series of signed powers of two. The conversion to this form is done on-the-fly.
This exposes ineffectual work that can be skipped: values when encoded have few
terms and some of them can be discarded as they would fall outside the range of
the accumulator given the limited precision of floating-point. We demonstrate
that FPRaker can be used to compose an accelerator for training and that it can
improve performance and energy efficiency compared to using conventional
floating-point units under ISO-compute area constraints. We also demonstrate
that FPRaker delivers additional benefits when training incorporates pruning
and quantization. Finally, we show that FPRaker naturally amplifies performance
with training methods that use a different precision per layer.
- Abstract(参考訳): 本稿では,トレーニングアクセラレータを構成する処理要素であるfprakerを提案する。
FPRakerは複数の浮動小数点乗算演算を同時に処理し、その結果を高い精度の累積器に蓄積する。
FPRakerは、トレーニング中に自然に現れる値を利用して、トレーニング中のパフォーマンスとエネルギー効率を高める。
具体的には、各乗算のオペランドのシグニフィカンドを2の符号付きパワーの列として処理する。
この形式への変換はオンザフライで行われる。
これはスキップできる非効率な作業を公開する:エンコードされたときの値にはいくつかの用語があり、浮動小数点の限られた精度でアキュムレータの範囲外に落ちるため、いくつかは破棄できる。
fpraker を用いて学習用加速器の構成を行い,iso-compute 領域制約下での従来の浮動小数点単位と比較して性能とエネルギー効率を向上できることを実証した。
また,pruningとquantizationを組み込んだトレーニングでは,fprakerにさらにメリットがあることを示す。
最後に、FPRakerはレイヤーごとに異なる精度のトレーニング手法で自然に性能を増幅することを示す。
関連論文リスト
- PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では,PYRA(Parallel Yielding Re-Activation)手法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Trainable Fixed-Point Quantization for Deep Learning Acceleration on
FPGAs [30.325651150798915]
量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。
モデルトレーニング中の二点位置を自動的に学習する,トレーニング可能な固定点量子化手法であるQFXを提案する。
QFXはPyTorchベースのライブラリとして実装され、FPGA HLSでサポートされている固定点演算を効率的にエミュレートする。
論文 参考訳(メタデータ) (2024-01-31T02:18:27Z) - No Train No Gain: Revisiting Efficient Training Algorithms For
Transformer-based Language Models [31.080446886440757]
本稿では、動的アーキテクチャ(レイヤの積み重ね、ドロップ)、バッチ選択(選択的バックプロップ、ROH損失)、効率的なレイヤ(Lion, Sophia)の3つのカテゴリを再検討する。
トレーニング,検証,ダウンストリームのゲインが,完全に遅延した学習率のベースラインに比べて消失していることが分かりました。
我々は、全ての計算時間を参照システム時間と呼ぶ参照マシンにマッピングすることで、任意の計算でマシンを実行できる評価プロトコルを定義した。
論文 参考訳(メタデータ) (2023-07-12T20:10:14Z) - BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。
提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文 参考訳(メタデータ) (2023-06-26T20:41:36Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Making EfficientNet More Efficient: Exploring Batch-Independent
Normalization, Group Convolutions and Reduced Resolution Training [8.411385346896413]
我々は、新しいクラスのアクセラレーターであるGraphcore IPU上で、最先端のEfficientNetモデルの実用効率を改善することに重点を置いている。
i)グループ畳み込みに深い畳み込みを一般化すること、(ii)バッチ正規化性能とバッチ非依存統計量とを一致させるためにプロキシ正規化アクティベーションを追加すること、(iii)トレーニング解像度を下げることによる計算の削減と、高解像度で安価に微調整を行うことにより、このモデル群を拡張した。
論文 参考訳(メタデータ) (2021-06-07T14:10:52Z) - Regularized Evolutionary Population-Based Training [11.624954122221562]
本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Population-Based Training)アルゴリズムを提案する。
EPBTは画像分類ベンチマークを高速かつ正確に学習する。
論文 参考訳(メタデータ) (2020-02-11T06:28:13Z) - Deep Learning Training with Simulated Approximate Multipliers [4.115297590661754]
本稿では、畳み込みニューラルネットワーク(CNN)のトレーニング性能を高めるために、近似乗算器をどのように利用できるかを示す。
トレーニング段階の大部分において、速度、パワー、面積の点で近似乗算器の性能上の利点が得られる。
一方、トレーニングの最終段階の正確な乗算器を用いることで、精度に対する負の影響が減少する。
論文 参考訳(メタデータ) (2019-12-26T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。