論文の概要: HaShiFlex: A High-Throughput Hardened Shifter DNN Accelerator with Fine-Tuning Flexibility
- arxiv url: http://arxiv.org/abs/2512.12847v1
- Date: Sun, 14 Dec 2025 21:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.471205
- Title: HaShiFlex: A High-Throughput Hardened Shifter DNN Accelerator with Fine-Tuning Flexibility
- Title(参考訳): HaShiFlex: 微調整フレキシビリティを備えた高出力ハードなShifter DNNアクセラレータ
- Authors: Jonathan Herbst, Michael Pellauer, Sherief Reda,
- Abstract要約: ハードウェアに直接ほとんどのネットワーク層を埋め込むニューラルネットワークアクセラレータを導入します。
データ転送とメモリ使用量を最小限に抑えつつ、最終分類層のための小さなニューラル処理ユニットを介して柔軟性を保ちながら、データ転送とメモリ使用量を最小化する。
- 参考スコア(独自算出の注目度): 3.443106745717184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a high-throughput neural network accelerator that embeds most network layers directly in hardware, minimizing data transfer and memory usage while preserving a degree of flexibility via a small neural processing unit for the final classification layer. By leveraging power-of-two (Po2) quantization for weights, we replace multiplications with simple rewiring, effectively reducing each convolution to a series of additions. This streamlined approach offers high-throughput, energy-efficient processing, making it highly suitable for applications where model parameters remain stable, such as continuous sensing tasks at the edge or large-scale data center deployments. Furthermore, by including a strategically chosen reprogrammable final layer, our design achieves high throughput without sacrificing fine-tuning capabilities. We implement this accelerator in a 7nm ASIC flow using MobileNetV2 as a baseline and report throughput, area, accuracy, and sensitivity to quantization and pruning - demonstrating both the advantages and potential trade-offs of the proposed architecture. We find that for MobileNetV2, we can improve inference throughput by 20x over fully programmable GPUs, processing 1.21 million images per second through a full forward pass while retaining fine-tuning flexibility. If absolutely no post-deployment fine tuning is required, this advantage increases to 67x at 4 million images per second.
- Abstract(参考訳): ハードウェアに直接ほとんどのネットワーク層を埋め込む高スループットニューラルネットワークアクセラレータを導入し、データ転送とメモリ使用量を最小化しつつ、最終分類層の小さなニューラルネットワークユニットを介して柔軟性を保ちます。
重み付けのパワー・オブ・ツー(Po2)量子化を利用することで、乗法を単純な書き換えに置き換え、各畳み込みを一連の加算に効果的に還元する。
この合理化されたアプローチは、高スループットでエネルギー効率の高い処理を提供し、エッジでの継続的センシングタスクや大規模データセンターのデプロイメントなど、モデルパラメータが安定しているアプリケーションに非常に適している。
さらに,戦略的に選択可能な最終層を組み込むことで,微調整機能を犠牲にすることなく高いスループットを実現する。
我々は,MobileNetV2 をベースラインとして7nm ASIC 流れにこのアクセラレータを実装し,量子化とプルーニングに対するスループット,面積,精度,感度を報告し,提案アーキテクチャの利点と潜在的なトレードオフを実証する。
MobileNetV2では、完全なプログラマブルGPUよりも20倍の推論スループットを向上し、1秒間に121万の画像をフルフォワードパスで処理し、微調整の柔軟性を維持しています。
デプロイ後の微調整がまったく不要な場合、この利点は毎秒400万イメージで67倍に向上する。
関連論文リスト
- Progressive Supernet Training for Efficient Visual Autoregressive Modeling [56.15415456746672]
本稿では,パラダイムとフルネットワークの両方の世代品質のフロンティアを突破するトレーニング戦略を提案する。
ImageNetの実験では、事前訓練されたVAR-d30、VARiant-d16、VARiant-d8と比べ、ほぼ同等の品質を実現している。
VARiant-d2は3.5倍のスピードアップと80%のメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-11-20T16:59:24Z) - Enabling Vibration-Based Gesture Recognition on Everyday Furniture via Energy-Efficient FPGA Implementation of 1D Convolutional Networks [11.481972015296812]
本研究では、低消費電力フィールドプログラマブルゲートアレイ(FPGA)上にコンパクトNNを展開させるエネルギー効率のよいソリューションを提案する。
我々は、複雑なスペクトル前処理を生波形入力に置き換え、複雑なオンボード前処理を不要とし、精度を犠牲にすることなく入力サイズを21倍削減する。
組み込みFPGAに適した2つの軽量アーキテクチャ(1D-CNNと1D-SepCNN)を設計し、パラメータを3億6900万から216に削減し、同等の精度を維持した。
論文 参考訳(メタデータ) (2025-10-27T09:30:36Z) - SpiDR: A Reconfigurable Digital Compute-in-Memory Spiking Neural Network Accelerator for Event-based Perception [8.968583287058959]
スパイキングニューラルネットワーク(SNN)は、ダイナミックビジョンセンサー(DVS)によって生成された非同期時間データを効率的に処理する方法を提供する。
既存のSNNアクセラレータは、多様なニューロンモデル、ビット精度、ネットワークサイズへの適応性の制限に悩まされている。
本稿では,CIM (Citical Compute-in-Memory) SNNアクセラレーターを,拡張性および再構成性を備えたチップ名として提案する。
論文 参考訳(メタデータ) (2024-11-05T06:59:02Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - POEM: 1-bit Point-wise Operations based on Expectation-Maximization for
Efficient Point Cloud Processing [53.74076015905961]
我々は,効率的なポイントクラウド処理のために,期待最大化に基づくポイントワイズ処理をBNNに導入する。
私たちのPOEMは、最先端のバイナリポイントクラウドネットワークを6.7%まで大きく上回っている。
論文 参考訳(メタデータ) (2021-11-26T09:45:01Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Dynamic Slimmable Network [105.74546828182834]
ダイナミックスリム化システム「ダイナミックスリム化ネットワーク(DS-Net)」を開発。
ds-netは,提案するダブルヘッド動的ゲートによる動的推論機能を備えている。
静的圧縮法と最先端の静的および動的モデル圧縮法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-03-24T15:25:20Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。