Fugu-MT 論文翻訳(概要): FPRaker: A Processing Element For Accelerating Neural Network Training

論文の概要: FPRaker: A Processing Element For Accelerating Neural Network Training

arxiv url: http://arxiv.org/abs/2010.08065v1
Date: Thu, 15 Oct 2020 23:24:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 05:04:21.582284
Title: FPRaker: A Processing Element For Accelerating Neural Network Training
Title（参考訳）: FPRaker: ニューラルネットワークトレーニングを加速するための処理要素
Authors: Omar Mohamed Awad, Mostafa Mahmoud, Isak Edo, Ali Hadi Zadeh, Ciaran Bannon, Anand Jayarajan, Gennady Pekhimenko, Andreas Moshovos
Abstract要約: トレーニングアクセラレータを構成するための処理要素であるFPRakerを紹介する。 FPRakerは複数の浮動小数点乗算演算を同時に処理し、その結果を高い精度の累積器に蓄積する。
参考スコア（独自算出の注目度）: 3.249681609416566
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present FPRaker, a processing element for composing training accelerators. FPRaker processes several floating-point multiply-accumulation operations concurrently and accumulates their result into a higher precision accumulator. FPRaker boosts performance and energy efficiency during training by taking advantage of the values that naturally appear during training. Specifically, it processes the significand of the operands of each multiply-accumulate as a series of signed powers of two. The conversion to this form is done on-the-fly. This exposes ineffectual work that can be skipped: values when encoded have few terms and some of them can be discarded as they would fall outside the range of the accumulator given the limited precision of floating-point. We demonstrate that FPRaker can be used to compose an accelerator for training and that it can improve performance and energy efficiency compared to using conventional floating-point units under ISO-compute area constraints. We also demonstrate that FPRaker delivers additional benefits when training incorporates pruning and quantization. Finally, we show that FPRaker naturally amplifies performance with training methods that use a different precision per layer.
Abstract（参考訳）: 本稿では,トレーニングアクセラレータを構成する処理要素であるfprakerを提案する。 FPRakerは複数の浮動小数点乗算演算を同時に処理し、その結果を高い精度の累積器に蓄積する。 FPRakerは、トレーニング中に自然に現れる値を利用して、トレーニング中のパフォーマンスとエネルギー効率を高める。具体的には、各乗算のオペランドのシグニフィカンドを2の符号付きパワーの列として処理する。この形式への変換はオンザフライで行われる。これはスキップできる非効率な作業を公開する:エンコードされたときの値にはいくつかの用語があり、浮動小数点の限られた精度でアキュムレータの範囲外に落ちるため、いくつかは破棄できる。 fpraker を用いて学習用加速器の構成を行い,iso-compute 領域制約下での従来の浮動小数点単位と比較して性能とエネルギー効率を向上できることを実証した。また,pruningとquantizationを組み込んだトレーニングでは,fprakerにさらにメリットがあることを示す。最後に、FPRakerはレイヤーごとに異なる精度のトレーニング手法で自然に性能を増幅することを示す。

関連論文リスト

SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [69.58329995485158]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文参考訳（メタデータ） (2025-02-23T15:01:09Z)
Efficient Reinforcement Learning Through Adaptively Pretrained Visual Encoder [12.310140622800372]
APE:適応事前学習による効率的な強化学習を提案する。 APEは、事前学習期間中に適応的な拡張戦略を使用し、政策学習期間中にタスク環境内でほんのわずかの相互作用しか持たない一般化可能な特徴を抽出する。その結果、DreamerV3やDrQ-v2といった主流のRL法は、APEを装着すると最先端の性能が得られることがわかった。
論文参考訳（メタデータ） (2025-02-08T12:57:02Z)
IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。 IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文参考訳（メタデータ） (2024-10-29T05:50:17Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
Continual Learning in the Frequency Domain [22.415936450558334]
周波数領域における連続学習(CLFD)と呼ばれる新しいフレームワークを提案する。特徴抽出器の入力特徴について、CLFDはウェーブレット変換を用いて元の入力画像を周波数領域にマッピングする。クラウド環境とエッジ環境の両方で実施された実験により、CLFDは精度とトレーニング効率の両方において、最先端(SOTA)手法の性能を一貫して改善することが示された。
論文参考訳（メタデータ） (2024-10-09T07:57:47Z)
iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation [15.97351561456467]
本稿では,iConFormerと呼ばれる新しいPEFT手法,入出力トランスフォーマーを提案する。インスタンスレベルの特徴変換を可能にする動的アダプタに,入出力ネットワーク(iCoN)を導入する。具体的に言うと、iCoNは各機能に対してチャネルワイドな畳み込みカーネルを生成し、それを適応畳み込みプロセスを使って変換し、下流タスクに適したタスク固有できめ細かな詳細を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-09-04T16:06:23Z)
Enhancing Fast Feed Forward Networks with Load Balancing and a Master Leaf Node [49.08777822540483]
高速フィードフォワードネットワーク(FFF)は、入力空間の異なる領域が広いネットワークのニューロンの異なるサブセットを活性化する観察を利用する。本稿では,FFFアーキテクチャにロードバランシングとマスタリーフ技術を導入し,性能向上とトレーニングプロセスの簡素化を図る。
論文参考訳（メタデータ） (2024-05-27T05:06:24Z)
PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。 PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文参考訳（メタデータ） (2024-03-14T09:06:49Z)
Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。 SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文参考訳（メタデータ） (2023-03-02T22:12:51Z)
DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文参考訳（メタデータ） (2022-08-05T03:15:28Z)
Making EfficientNet More Efficient: Exploring Batch-Independent Normalization, Group Convolutions and Reduced Resolution Training [8.411385346896413]
我々は、新しいクラスのアクセラレーターであるGraphcore IPU上で、最先端のEfficientNetモデルの実用効率を改善することに重点を置いている。 i)グループ畳み込みに深い畳み込みを一般化すること、(ii)バッチ正規化性能とバッチ非依存統計量とを一致させるためにプロキシ正規化アクティベーションを追加すること、(iii)トレーニング解像度を下げることによる計算の削減と、高解像度で安価に微調整を行うことにより、このモデル群を拡張した。
論文参考訳（メタデータ） (2021-06-07T14:10:52Z)
Regularized Evolutionary Population-Based Training [11.624954122221562]
本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Population-Based Training)アルゴリズムを提案する。 EPBTは画像分類ベンチマークを高速かつ正確に学習する。
論文参考訳（メタデータ） (2020-02-11T06:28:13Z)
Deep Learning Training with Simulated Approximate Multipliers [4.115297590661754]
本稿では、畳み込みニューラルネットワーク(CNN)のトレーニング性能を高めるために、近似乗算器をどのように利用できるかを示す。トレーニング段階の大部分において、速度、パワー、面積の点で近似乗算器の性能上の利点が得られる。一方、トレーニングの最終段階の正確な乗算器を用いることで、精度に対する負の影響が減少する。
論文参考訳（メタデータ） (2019-12-26T12:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。