論文の概要: BitParticle: Partializing Sparse Dual-Factors to Build Quasi-Synchronizing MAC Arrays for Energy-efficient DNNs
- arxiv url: http://arxiv.org/abs/2507.09780v1
- Date: Sun, 13 Jul 2025 20:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.974519
- Title: BitParticle: Partializing Sparse Dual-Factors to Build Quasi-Synchronizing MAC Arrays for Energy-efficient DNNs
- Title(参考訳): BitParticle:省エネルギーDNNのための準同期MACアレイ構築のためのスパーズデュアルファクタの部分化
- Authors: Feilong Qiaoyuan, Jihe Wang, Zhiyu Sun, Linying Wu, Yuanhua Xiao, Danghui Wang,
- Abstract要約: 量子化ディープニューラルネットワーク(DNN)におけるビットレベルの空間性は、MAC(Multiply-Accumulate)操作を最適化するための大きなポテンシャルを提供する。
しかし、2つの重要な課題は依然として実用的利用を制限している。
第一に、従来のビットシリアルアプローチは両方の要素の空間性を同時に利用できない。
第二に、ビットレベルの間隔の変動はMAC演算の変動周期数につながる。
- 参考スコア(独自算出の注目度): 1.5079304866622987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bit-level sparsity in quantized deep neural networks (DNNs) offers significant potential for optimizing Multiply-Accumulate (MAC) operations. However, two key challenges still limit its practical exploitation. First, conventional bit-serial approaches cannot simultaneously leverage the sparsity of both factors, leading to a complete waste of one factor' s sparsity. Methods designed to exploit dual-factor sparsity are still in the early stages of exploration, facing the challenge of partial product explosion. Second, the fluctuation of bit-level sparsity leads to variable cycle counts for MAC operations. Existing synchronous scheduling schemes that are suitable for dual-factor sparsity exhibit poor flexibility and still result in significant underutilization of MAC units. To address the first challenge, this study proposes a MAC unit that leverages dual-factor sparsity through the emerging particlization-based approach. The proposed design addresses the issue of partial product explosion through simple control logic, resulting in a more area- and energy-efficient MAC unit. In addition, by discarding less significant intermediate results, the design allows for further hardware simplification at the cost of minor accuracy loss. To address the second challenge, a quasi-synchronous scheme is introduced that adds cycle-level elasticity to the MAC array, reducing pipeline stalls and thereby improving MAC unit utilization. Evaluation results show that the exact version of the proposed MAC array architecture achieves a 29.2% improvement in area efficiency compared to the state-of-the-art bit-sparsity-driven architecture, while maintaining comparable energy efficiency. The approximate variant further improves energy efficiency by 7.5%, compared to the exact version. Index-Terms: DNN acceleration, Bit-level sparsity, MAC unit
- Abstract(参考訳): 量子化ディープニューラルネットワーク(DNN)におけるビットレベルの空間性は、MAC(Multiply-Accumulate)操作を最適化するための大きなポテンシャルを提供する。
しかし、2つの重要な課題は依然として実用的利用を制限している。
第一に、従来のビットシリアルアプローチは両方の因子の空白を同時に利用することができず、1つの因子の空白を完全に無駄にする。
二重要素間隔を利用するように設計された手法は、まだ探査の初期段階にあり、部分的な製品爆発の課題に直面している。
第二に、ビットレベルの間隔の変動はMAC演算の変動周期数につながる。
2要素間隔に適した既存の同期スケジューリングスキームは、柔軟性が低く、MACユニットの大幅な非活用がもたらされる。
この課題に対処するため,本研究では,新たなパーティクル化に基づくアプローチにより,二要素間隔を生かしたMACユニットを提案する。
提案した設計は、単純な制御論理により部分的な製品爆発の問題に対処し、より面積とエネルギー効率の良いMACユニットをもたらす。
さらに、重要な中間結果を捨てることによって、この設計により、わずかな精度の損失を犠牲にして、さらなるハードウェアの単純化が可能になる。
第2の課題に対処するために、MACアレイにサイクルレベルの弾力性を追加し、パイプラインストールを低減し、MACユニットの利用を改善する準同期方式が導入された。
提案したMACアレイアーキテクチャの正確なバージョンは、同等のエネルギー効率を維持しつつ、最先端のビットスパーシリティ駆動アーキテクチャと比較して29.2%の効率向上を実現していることを示す。
この近似変種は、正確なバージョンに比べてエネルギー効率を7.5%向上させる。
Index-Terms: DNNAcceleration, Bit-level sparsity, MAC Unit
関連論文リスト
- Energy-Efficient Supervised Learning with a Binary Stochastic Forward-Forward Algorithm [0.0]
我々は二進数単位に対する前方アルゴリズムを導出する。
提案アルゴリズムを,MNIST,Fashion-MNIST,CIFAR-10データセット上で評価した。
論文 参考訳(メタデータ) (2025-07-09T00:29:06Z) - MAC: An Efficient Gradient Preconditioning using Mean Activation Approximated Curvature [7.512116180634991]
KFACのようなニューラルネットワークをトレーニングするための2次最適化手法は、損失ランドスケープの曲率情報を活用することにより、優れた収束性を示す。
我々は、KFACで使用される階層式フィッシャー情報行列(FIM)を構成する2つの成分について分析する。
そこで我々は, MAC という計算効率のよい最適化手法を提案する。
我々の知る限り、MACは、トランスフォーマーで使用される注目層のFIMにクロネッカー分解を適用し、注意スコアを事前条件に明示的に統合する最初のアルゴリズムである。
論文 参考訳(メタデータ) (2025-06-10T05:38:04Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - DOMAC: Differentiable Optimization for High-Speed Multipliers and Multiply-Accumulators [25.876084896293058]
DOMACは、特定の技術ノードで乗算器とMACを設計するための微分可能な最適化を利用する新しいアプローチである。
この洞察に基づいて、DOMACは、異なるタイミングと領域の目的を取り入れることで、離散最適化の課題を継続的問題に再構成する。
論文 参考訳(メタデータ) (2025-03-31T10:49:05Z) - Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - USEFUSE: Uniform Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。
有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。
ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文 参考訳(メタデータ) (2024-12-18T11:04:58Z) - MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。
我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文 参考訳(メタデータ) (2024-11-25T07:34:53Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - MAC-DO: An Efficient Output-Stationary GEMM Accelerator for CNNs Using
DRAM Technology [2.918940961856197]
本稿では,DRAMを用いた高速かつ低消費電力なインサイトアクセラレータMAC-DOを提案する。
マルチビット乗算(MAC)操作を1サイクルでサポートする。
MAC-DOアレイは、出力定常マッピングに基づいて行列乗算を効率的に加速することができ、ディープニューラルネットワーク(DNN)で実行される計算の大部分をサポートする。
論文 参考訳(メタデータ) (2022-07-16T07:33:20Z) - Multiple Kernel Clustering with Dual Noise Minimization [56.009011016367744]
マルチカーネルクラスタリング(MKC)は、ベースカーネルから補完的な情報を統合することでデータをグループ化する。
本稿では,双対雑音を厳密に定義し,パラメータフリーなMKCアルゴリズムを提案する。
二重ノイズはブロック対角構造を汚染し,クラスタリング性能の劣化を招き,CノイズはNノイズよりも強い破壊を示す。
論文 参考訳(メタデータ) (2022-07-13T08:37:42Z) - Learning Efficient GANs for Image Translation via Differentiable Masks
and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。
DMADと呼ばれる新しいGAN圧縮手法を提案する。
実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文 参考訳(メタデータ) (2020-11-17T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。