Fugu-MT 論文翻訳(概要): Multiply-and-Fire (MNF): An Event-driven Sparse Neural Network Accelerator

論文の概要: Multiply-and-Fire (MNF): An Event-driven Sparse Neural Network Accelerator

arxiv url: http://arxiv.org/abs/2204.09797v1
Date: Wed, 20 Apr 2022 21:56:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-22 13:59:15.107761
Title: Multiply-and-Fire (MNF): An Event-driven Sparse Neural Network Accelerator
Title（参考訳）: multiply-and-fire (mnf): イベント駆動スパースニューラルネットワークアクセラレータ
Authors: Miao Yu, Tingting Xiang, Venkata Pavan Kumar Miriyala, Trevor E. Carlson
Abstract要約: この研究は、ANNアクセラレーションに対するイベント駆動(あるいはアクティベーション駆動)アプローチで、スパーシリティをユニークな視点で見る。我々の分析および実験結果から、このイベント駆動型ソリューションは、CNNとワークロードの両方で高効率なAI推論を可能にするために、新たな方向を示すことが示されている。
参考スコア（独自算出の注目度）: 3.224364382976958
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning, particularly deep neural network inference, has become a vital workload for many computing systems, from data centers and HPC systems to edge-based computing. As advances in sparsity have helped improve the efficiency of AI acceleration, there is a continued need for improved system efficiency for both high-performance and system-level acceleration. This work takes a unique look at sparsity with an event (or activation-driven) approach to ANN acceleration that aims to minimize useless work, improve utilization, and increase performance and energy efficiency. Our analytical and experimental results show that this event-driven solution presents a new direction to enable highly efficient AI inference for both CNN and MLP workloads. This work demonstrates state-of-the-art energy efficiency and performance centring on activation-based sparsity and a highly-parallel dataflow method that improves the overall functional unit utilization (at 30 fps). This work enhances energy efficiency over a state-of-the-art solution by 1.46$\times$. Taken together, this methodology presents a novel, new direction to achieve high-efficiency, high-performance designs for next-generation AI acceleration platforms.
Abstract（参考訳）: 機械学習、特にディープニューラルネットワーク推論は、データセンターやHPCシステムからエッジベースのコンピューティングに至るまで、多くのコンピューティングシステムにとって重要なワークロードとなっている。スパーシティの進歩がaiアクセラレーションの効率向上に寄与しているため、ハイパフォーマンスとシステムレベルのアクセラレーションの両方において、システム効率の向上が引き続き求められている。この研究は、ANNアクセラレーションに対するイベント(あるいはアクティベーション駆動)アプローチによって、無駄な作業の最小化、利用率の向上、パフォーマンスとエネルギー効率の向上を目的としている。分析および実験結果から、このイベント駆動型ソリューションは、CNNとMLPの両方のワークロードに対して、高効率なAI推論を可能にするために、新たな方向を示すことが示された。本研究は, 機能単位全体の利用効率を30fpsで向上させる高並列データフロー法と, アクティベーションベース空間におけるエネルギー効率と性能中心性を示す。この研究は、最先端の解に対するエネルギー効率を 1.46$\times$ で向上させる。総合すると、この方法論は次世代aiアクセラレーションプラットフォームの高性能で高性能な設計を実現するための新しい方向性を示す。

関連論文リスト

iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文参考訳（メタデータ） (2025-03-20T19:10:37Z)
Task-Specific Activation Functions for Neuroevolution using Grammatical Evolution [0.0]
我々は,新しいアクティベーション関数を自動進化させるために,文法進化(GE)を活用する革新的なアプローチであるNevo GEAFを紹介する。有名なバイナリ分類データセットで実施された実験では、ReLUよりもF1スコア(2.4%と9.4%)が統計的に顕著に改善された。
論文参考訳（メタデータ） (2025-03-13T20:50:21Z)
USEFUSE: Utile Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文参考訳（メタデータ） (2024-12-18T11:04:58Z)
big.LITTLE Vision Transformer for Efficient Visual Recognition [34.015778625984055]
big.LITTLE Vision Transformerは、効率的な視覚認識を実現するための革新的なアーキテクチャである。システムは、大きなパフォーマンスブロックとLITTLE効率ブロックの2つの異なるブロックで構成されている。画像処理では,各トークンの重要度を判定し,それに応じて割り当てる。
論文参考訳（メタデータ） (2024-10-14T08:21:00Z)
Efficient Federated Learning Using Dynamic Update and Adaptive Pruning with Momentum on Shared Server Data [59.6985168241067]
フェデレートラーニング(FL)は、低トレーニング効率と限られた計算資源の2つの重要な問題に遭遇する。本稿では,サーバ上の共有不感データとエッジデバイスの分散データを活用するための新しいFLフレームワークであるFedDUMAPを提案する。提案するFLモデルであるFedDUMAPは,従来の3つの手法を組み合わせることで,ベースラインアプローチと比較して性能が大幅に向上した。
論文参考訳（メタデータ） (2024-08-11T02:59:11Z)
Center-Sensitive Kernel Optimization for Efficient On-Device Incremental Learning [88.78080749909665]
現在のオンデバイストレーニング手法は、破滅的な忘れを考慮せずに、効率的なトレーニングにのみ焦点をあてている。本稿では,単純だが効果的なエッジフレンドリーなインクリメンタル学習フレームワークを提案する。本手法は,メモリの削減と近似計算により,平均精度38.08%の高速化を実現する。
論文参考訳（メタデータ） (2024-06-13T05:49:29Z)
Augmenting the FedProx Algorithm by Minimizing Convergence [0.0]
我々はGフェデレーション・プロクシミティ(G Federated Proximity)と呼ばれる新しいアプローチを提案する。以上の結果から,既存のモデル性能と比較して,スループットが約90%向上していることが示唆された。
論文参考訳（メタデータ） (2024-06-02T14:01:55Z)
Accelerating Neural Network Training: A Brief Review [0.5825410941577593]
本研究では,ディープニューラルネットワーク(DNN)の学習過程を高速化するための革新的なアプローチについて検討する。この研究は、グラディエント累積(GA)、自動混合精度(AMP)、ピンメモリ(PM)などの高度な手法を利用する。
論文参考訳（メタデータ） (2023-12-15T18:43:45Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning Using Shared Data on the Server [64.94942635929284]
フェデレーテッド・ラーニング(FL)は2つの重要な課題、すなわち限られた計算資源と訓練効率の低下に悩まされている。本稿では,サーバ上の不感なデータとエッジデバイスの分散データを利用する新しいFLフレームワークであるFedDUAPを提案する。提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。
論文参考訳（メタデータ） (2022-04-25T10:00:00Z)
FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文参考訳（メタデータ） (2022-04-22T21:57:00Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Making EfficientNet More Efficient: Exploring Batch-Independent Normalization, Group Convolutions and Reduced Resolution Training [8.411385346896413]
我々は、新しいクラスのアクセラレーターであるGraphcore IPU上で、最先端のEfficientNetモデルの実用効率を改善することに重点を置いている。 i)グループ畳み込みに深い畳み込みを一般化すること、(ii)バッチ正規化性能とバッチ非依存統計量とを一致させるためにプロキシ正規化アクティベーションを追加すること、(iii)トレーニング解像度を下げることによる計算の削減と、高解像度で安価に微調整を行うことにより、このモデル群を拡張した。
論文参考訳（メタデータ） (2021-06-07T14:10:52Z)
AutoScale: Optimizing Energy Efficiency of End-to-End Edge Inference under Stochastic Variance [11.093360539563657]
AutoScaleは、カスタム設計の強化学習アルゴリズムに基づいて構築された、適応的で軽量な実行スケーリングエンジンである。本稿では,エッジでの高精度かつエネルギー効率の高いディープラーニング推論を実現するためのAutoScaleを提案する。
論文参考訳（メタデータ） (2020-05-06T00:30:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。