論文の概要: Low Power Vision Transformer Accelerator with Hardware-Aware Pruning and Optimized Dataflow
- arxiv url: http://arxiv.org/abs/2510.14393v1
- Date: Thu, 16 Oct 2025 07:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.766618
- Title: Low Power Vision Transformer Accelerator with Hardware-Aware Pruning and Optimized Dataflow
- Title(参考訳): ハードウェア・アウェア・プルーニングと最適化データフローを用いた低消費電力変換器加速器
- Authors: Ching-Lin Hsiung, Tian-Sheuan Chang,
- Abstract要約: 本稿では,アルゴリズムハードウェアの共設計により最適化された低消費電力ビジョントランスフォーマーアクセラレータを提案する。
複雑な機構を導入することなく、ハードウェアフレンドリーな動的トークンプルーニングによってモデルの複雑さを低減させる。
ピークスループットは1GHzで1024 GOPS、エネルギー効率は2.31 TOPS/W、面積効率は858.61 GOPS/mm2である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current transformer accelerators primarily focus on optimizing self-attention due to its quadratic complexity. However, this focus is less relevant for vision transformers with short token lengths, where the Feed-Forward Network (FFN) tends to be the dominant computational bottleneck. This paper presents a low power Vision Transformer accelerator, optimized through algorithm-hardware co-design. The model complexity is reduced using hardware-friendly dynamic token pruning without introducing complex mechanisms. Sparsity is further improved by replacing GELU with ReLU activations and employing dynamic FFN2 pruning, achieving a 61.5\% reduction in operations and a 59.3\% reduction in FFN2 weights, with an accuracy loss of less than 2\%. The hardware adopts a row-wise dataflow with output-oriented data access to eliminate data transposition, and supports dynamic operations with minimal area overhead. Implemented in TSMC's 28nm CMOS technology, our design occupies 496.4K gates and includes a 232KB SRAM buffer, achieving a peak throughput of 1024 GOPS at 1GHz, with an energy efficiency of 2.31 TOPS/W and an area efficiency of 858.61 GOPS/mm2.
- Abstract(参考訳): 現在の変圧器加速器は、主に2次複雑さのために自己注意を最適化することに焦点を当てている。
しかし、この焦点は、Feed-Forward Network(FFN)が支配的な計算ボトルネックになる傾向にある短いトークン長を持つ視覚変換器にはあまり関係がない。
本稿では,アルゴリズムハードウェアの共設計により最適化された低消費電力ビジョントランスフォーマーアクセラレータを提案する。
複雑な機構を導入することなく、ハードウェアフレンドリーな動的トークンプルーニングによってモデルの複雑さを低減させる。
GELUをReLUアクティベートに置き換え、動的FFN2プルーニングを導入し、操作を61.5\%減らし、FFN2重量を59.3\%減らし、精度を2\%未満にすることで、スポーサリティをさらに改善する。
このハードウェアは、データ転送を排除するために出力指向のデータアクセスを備えた行ワイドデータフローを採用し、最小の領域オーバーヘッドで動的操作をサポートする。
TSMCの28nmCMOS技術で実装された設計では、496.4Kゲートを占有し、232KBのSRAMバッファを備え、1GHzで1024 GOPSのピークスループットを実現し、エネルギー効率は2.31 TOPS/W、面積効率は858.61 GOPS/mm2である。
関連論文リスト
- Spark Transformer: Reactivating Sparsity in FFN and Attention [63.20677098823873]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - A Runtime-Adaptive Transformer Neural Network Accelerator on FPGAs [0.0]
ADAPTORは、FPGA上のトランスフォーマーエンコーダとデコーダの高密度行列計算のためのランタイム適応型アクセラレータである。
FPGAプラットフォームにリソースを分散するための効率的な行列タイリングが組み込まれている。
最新のFPGAベースのアクセラレータと比べて1.7~2.25$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-11-27T08:53:19Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。