論文の概要: SPADE: A SIMD Posit-enabled compute engine for Accelerating DNN Efficiency
- arxiv url: http://arxiv.org/abs/2601.17279v1
- Date: Sat, 24 Jan 2026 03:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.497932
- Title: SPADE: A SIMD Posit-enabled compute engine for Accelerating DNN Efficiency
- Title(参考訳): SPADE: DNN効率向上のためのSIMD Posit対応計算エンジン
- Authors: Sonu Kumar, Lavanya Vinnakota, Mukul Lokhande, Santosh Kumar Vishvakarma, Adam Teman,
- Abstract要約: 本研究では,多精度SIMD Posit-based multiplyaccumulate (MAC)アーキテクチャを統一したSPADEを提案する。
従来の単精度や浮動小数点SIMD MACとは異なり、SPADEはレギュラー対応のレーン融合SIMD Positデータパスを導入している。
Xilinx Virtex-7上のFPGA実装では、Posit (8,0) の45.13%のLUTと80%のスライス削減、Posit (16,1) と Posit (32,2) の最大28.44%と17.47%の改善がある。
- 参考スコア(独自算出の注目度): 0.12314765641075437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing demand for edge-AI systems requires arithmetic units that balance numerical precision, energy efficiency, and compact hardware while supporting diverse formats. Posit arithmetic offers advantages over floating- and fixed-point representations through its tapered precision, wide dynamic range, and improved numerical robustness. This work presents SPADE, a unified multi-precision SIMD Posit-based multiplyaccumulate (MAC) architecture supporting Posit (8,0), Posit (16,1), and Posit (32,2) within a single framework. Unlike prior single-precision or floating/fixed-point SIMD MACs, SPADE introduces a regime-aware, lane-fused SIMD Posit datapath that hierarchically reuses Posit-specific submodules (LOD, complementor, shifter, and multiplier) across 8/16/32-bit precisions without datapath replication. FPGA implementation on a Xilinx Virtex-7 shows 45.13% LUT and 80% slice reduction for Posit (8,0), and up to 28.44% and 17.47% improvement for Posit (16,1) and Posit (32,2) over prior work, with only 6.9% LUT and 14.9% register overhead for multi-precision support. ASIC results across TSMC nodes achieve 1.38 GHz at 6.1 mW (28 nm). Evaluation on MNIST, CIFAR-10/100, and alphabet datasets confirms competitive inference accuracy.
- Abstract(参考訳): エッジAIシステムの需要が高まっているため、様々なフォーマットをサポートしながら、数値精度、エネルギー効率、コンパクトハードウェアのバランスをとる算術ユニットが必要である。
ポジット算術は、テーパー付き精度、広いダイナミックレンジ、数値ロバスト性の改善を通じて浮動小数点および不動小数点表現よりも有利である。
本研究は,Posit (8,0), Posit (16,1), Posit (32,2) をサポートする多精度SIMD Posit-based multiplyaccumulate (MAC) アーキテクチャであるSPADEを提案する。
従来の単一精度や浮動小数点SIMD MACとは異なり、SPADEは、データパスレプリケーションなしで8/16/32ビットの精度でPosit固有のサブモジュール(LOD、補足子、シフト器、乗算器)を階層的に再利用する、レギュラー対応のSIMD Positデータパスを導入している。
Xilinx Virtex-7 上のFPGA実装では、Posit (8,0) の45.13% LUTと80%のスライスを削減し、前回の作業で Posit (16,1) と Posit (32,2) の最大28.44%と17.47%の改善を実現した。
ASIC は TSMC ノード間で 6.1 mW (28 nm) で 1.38 GHz を達成する。
MNIST, CIFAR-10/100, およびアルファベットデータセットの評価は競合推論精度を確認する。
関連論文リスト
- DS-CIM: Digital Stochastic Computing-In-Memory Featuring Accurate OR-Accumulation via Sample Region Remapping for Edge AI Models [8.92683306412944]
本稿では,高い精度と効率を実現するデジタルCIM(DS-CIM)アーキテクチャを提案する。
データ表現を変更することで、コンパクトで符号のないORベースの回路に乗算累積(MAC)を実装する。
我々のコア戦略である2Dの共有ランダム数生成器(PRNG)は、単一サイクルの排他的アクティベーションによりORゲート衝突を排除します。
論文 参考訳(メタデータ) (2026-01-10T23:56:33Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Rethinking Floating Point Overheads for Mixed Precision DNN Accelerators [2.6487352458568507]
異なる整数および浮動小数点(FP)精度をサポートする混合精度畳み込みユニットアーキテクチャを提案する。
FP計算を整数ベースのアーキテクチャに統合し、FP演算サポートによるオーバーヘッドを評価する方法を紹介します。
論文 参考訳(メタデータ) (2021-01-27T23:57:43Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - SIMDive: Approximate SIMD Soft Multiplier-Divider for FPGAs with Tunable
Accuracy [3.4154033825543055]
本稿では,新しい乗算器とチューナブルな分割器に基づくSIMDアーキテクチャを初めて提示する。
提案したハイブリッドアーキテクチャはMitchellのアルゴリズムを実装し、8ビットから32ビットの精度変数をサポートする。
論文 参考訳(メタデータ) (2020-11-02T17:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。