Fugu-MT 論文翻訳(概要): SF-MMCN: Low-Power Sever Flow Multi-Mode Diffusion Model Accelerator

論文の概要: SF-MMCN: Low-Power Sever Flow Multi-Mode Diffusion Model Accelerator

arxiv url: http://arxiv.org/abs/2403.10542v2
Date: Thu, 26 Sep 2024 13:38:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 03:59:25.571363
Title: SF-MMCN: Low-Power Sever Flow Multi-Mode Diffusion Model Accelerator
Title（参考訳）: SF-MMCN:低出力多モード拡散モデル加速器
Authors: Huan-Ke Hsu, I-Chyn Wey, T. Hui Teo,
Abstract要約: 畳み込みニューラルネットワーク(CNN)アクセラレータは,特に高速推論のために設計・開発が急速に進んでいる。サーバフローマルチモードCNNユニット(SF-MMCN)が提案され,処理要素数(PE)が削減され,操作効率が向上した。提案したSF-MMCNは、電力消費を92%削減し、シリコン領域を70%削減し、運転効率を約81倍改善する。
参考スコア（独自算出の注目度）: 0.210674772139335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative Artificial Intelligence (AI) has become incredibly popular in recent years, and the significance of traditional accelerators in dealing with large-scale parameters is urgent. With the diffusion model's parallel structure, the hardware design challenge has skyrocketed because of the multiple layers operating simultaneously. Convolution Neural Network (CNN) accelerators have been designed and developed rapidly, especially for high-speed inference. Often, CNN models with parallel structures are deployed. In these CNN accelerators, many Processing Elements (PE) are required to perform parallel computations, mainly the multiply and accumulation (MAC) operation, resulting in high power consumption and a large silicon area. In this work, a Server Flow Multi-Mode CNN Unit (SF-MMCN) is proposed to reduce the number of PE while improving the operation efficiency of the CNN accelerator. The pipelining technique is introduced into Server Flow to process parallel computations. The proposed SF-MMCN is implemented with TSMC 90-nm CMOS technology. It is evaluated with VGG-16, ResNet-18, and U-net. The evaluation results show that the proposed SF-MMCN can reduce the power consumption by 92%, and the silicon area by 70%, while improving the efficiency of operation by nearly 81 times. A new FoM, area efficiency (GOPs/mm^2) is also introduced to evaluate the performance of the accelerator in terms of the ratio throughput (GOPs) and silicon area (mm^2). In this FoM, SF-MMCN improves area efficiency by 18 times (18.42).
Abstract（参考訳）: 近年,生成人工知能(AI)が急速に普及しており,大規模パラメータを扱う上での従来のアクセラレータの重要性が急務である。拡散モデルの並列構造により、複数の層が同時に動作するため、ハードウェア設計の課題が急増した。畳み込みニューラルネットワーク(CNN)アクセラレータは,特に高速推論のために設計・開発が急速に進んでいる。多くの場合、並列構造を持つCNNモデルがデプロイされる。これらのCNN加速器では、多くの処理要素(PE)が、主に乗算および蓄積(MAC)演算を並列計算するために必要であり、高い消費電力と大きなシリコン領域をもたらす。本研究では,サーバフローマルチモードCNNユニット(SF-MMCN)を提案する。並列計算を処理するために、パイプライニング技術がServer Flowに導入されている。提案するSF-MMCNは、TSMC 90nm CMOS技術で実装されている。 VGG-16、ResNet-18、U-netで評価される。その結果,提案したSF-MMCNは電力消費量を92%削減し,シリコン面積を70%削減し,運転効率を81倍に向上させることができた。また, 新しいFoM, 面積効率 (GOPs/mm^2) を導入し, 比スループット (GOPs) とシリコン面積 (mm^2) の観点から加速器の性能評価を行った。このフォムでは、SF-MMCNは面積効率を18倍に改善する(18.42)。

関連論文リスト

DNN-Based Precoding in RIS-Aided mmWave MIMO Systems With Practical Phase Shift [56.04579258267126]
本稿では、直接通信路を妨害したミリ波マルチインプット多重出力(MIMO)システムのスループットを最大化する。リコンフィギュアブルインテリジェントサーフェス(RIS)は、視線(LoS)とマルチパス効果に関連するmmWave特性を考慮して伝送性を高めるために使用される。ディープニューラルネットワーク(DNN)は、より高速なコードワード選択を容易にするために開発された。
論文参考訳（メタデータ） (2025-07-03T17:35:06Z)
Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought [196.74837065805488]
Hunyuan-TurboSは、Transformer-Mamba Mixture of Expertsの大型ハイブリッドモデルである。高いパフォーマンスと効率のバランスを保ち、推論コストを低く抑えている。
論文参考訳（メタデータ） (2025-05-21T12:11:53Z)
SpiDR: A Reconfigurable Digital Compute-in-Memory Spiking Neural Network Accelerator for Event-based Perception [8.968583287058959]
スパイキングニューラルネットワーク(SNN)は、ダイナミックビジョンセンサー(DVS)によって生成された非同期時間データを効率的に処理する方法を提供する。既存のSNNアクセラレータは、多様なニューロンモデル、ビット精度、ネットワークサイズへの適応性の制限に悩まされている。本稿では,CIM (Citical Compute-in-Memory) SNNアクセラレーターを,拡張性および再構成性を備えたチップ名として提案する。
論文参考訳（メタデータ） (2024-11-05T06:59:02Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Analog Spiking Neuron in CMOS 28 nm Towards Large-Scale Neuromorphic Processors [0.8426358786287627]
本研究では,TSMCの28nmCMOS技術を用いた低消費電力Leaky Integrate- and-Fireニューロンの設計を提案する。製造されたニューロンは1.61 fJ/スパイクを消費し、34$mu m2$の活性領域を占有し、最大スパイク周波数は250mVで300kHzである。
論文参考訳（メタデータ） (2024-08-14T17:51:20Z)
A Precision-Optimized Fixed-Point Near-Memory Digital Processing Unit for Analog In-Memory Computing [10.992736723518036]
固定点演算に基づくNMPU(Near-Memory Digital Processing Unit)を提案する。従来の手法よりも競争精度と高い計算スループットを実現している。我々は,AIMCチップのデータを用いてNMPUの有効性を検証するとともに,提案したNMPUを用いたシミュレーションAIMCシステムが,既存のFP16ベースの実装よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-12T10:30:45Z)
EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文参考訳（メタデータ） (2023-11-12T17:56:39Z)
ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。 16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文参考訳（メタデータ） (2023-09-04T19:19:39Z)
SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast, Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文参考訳（メタデータ） (2023-02-14T13:35:15Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。 MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文参考訳（メタデータ） (2020-11-24T18:59:39Z)
Toward fast and accurate human pose estimation via soft-gated skip connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文参考訳（メタデータ） (2020-02-25T18:51:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。