Fugu-MT 論文翻訳(概要): Accelerating ViT Inference on FPGA through Static and Dynamic Pruning

論文の概要: Accelerating ViT Inference on FPGA through Static and Dynamic Pruning

arxiv url: http://arxiv.org/abs/2403.14047v1
Date: Thu, 21 Mar 2024 00:09:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 17:49:40.552619
Title: Accelerating ViT Inference on FPGA through Static and Dynamic Pruning
Title（参考訳）: 静的および動的プルーニングによるFPGA上のViT推論の高速化
Authors: Dhruv Parikh, Shouyi Li, Bingyi Zhang, Rajgopal Kannan, Carl Busart, Viktor Prasanna,
Abstract要約: 視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて最先端の精度を実現している。重みとトークンプルーニングは複雑さを減らすためのよく知られた方法である。 FPGA上でのViTの高速化を同時に行うためのアルゴリズムハードウェア符号を提案する。
参考スコア（独自算出の注目度）: 2.8595179027282907
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Transformers (ViTs) have achieved state-of-the-art accuracy on various computer vision tasks. However, their high computational complexity prevents them from being applied to many real-world applications. Weight and token pruning are two well-known methods for reducing complexity: weight pruning reduces the model size and associated computational demands, while token pruning further dynamically reduces the computation based on the input. Combining these two techniques should significantly reduce computation complexity and model size; however, naively integrating them results in irregular computation patterns, leading to significant accuracy drops and difficulties in hardware acceleration. Addressing the above challenges, we propose a comprehensive algorithm-hardware codesign for accelerating ViT on FPGA through simultaneous pruning -combining static weight pruning and dynamic token pruning. For algorithm design, we systematically combine a hardware-aware structured block-pruning method for pruning model parameters and a dynamic token pruning method for removing unimportant token vectors. Moreover, we design a novel training algorithm to recover the model's accuracy. For hardware design, we develop a novel hardware accelerator for executing the pruned model. The proposed hardware design employs multi-level parallelism with load balancing strategy to efficiently deal with the irregular computation pattern led by the two pruning approaches. Moreover, we develop an efficient hardware mechanism for efficiently executing the on-the-fly token pruning.
Abstract（参考訳）: 視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて最先端の精度を実現している。しかし、計算の複雑さが高いため、現実世界の多くのアプリケーションに適用できない。ウェイトプルーニングはモデルサイズと関連する計算要求を減らし、トークンプルーニングは入力に基づく計算をさらに動的に減らし、ウェイトプルーニングとトークンプルーニングは複雑さを減らすためのよく知られた方法である。これらの2つの手法を組み合わせることで、計算の複雑さとモデルサイズを大幅に削減できるが、この2つの手法を鼻で統合すると不規則な計算パターンとなり、ハードウェアアクセラレーションの大幅な精度低下と困難が生じる。上記の課題に対処するため、我々はFPGA上でのViTの高速化を同時に行うための包括的なアルゴリズムハードウェア符号を提案する。アルゴリズム設計において,モデルパラメータのプルーニングのためのハードウェア対応構造化ブロックプルーニング法と,重要でないトークンベクトルを除去する動的トークンプルーニング法を体系的に組み合わせた。さらに,モデルの精度を回復するための新しいトレーニングアルゴリズムを設計する。ハードウェア設計のための新しいハードウェアアクセラレーションを開発した。提案するハードウェア設計では,2つのプルーニング手法によって導かれる不規則な計算パターンを効率的に処理するために,負荷分散戦略を用いたマルチレベル並列処理を用いる。さらに、オンザフライトークンプルーニングを効率的に実行するための効率的なハードウェア機構を開発する。

関連論文リスト

Tail-Aware Post-Training Quantization for 3D Geometry Models [58.79500829118265]
ポストトレーニング量子化(PTQ)は、再トレーニングなしに効率的な推論を可能にする。 PTQは複雑な特徴分布と禁止キャリブレーションオーバーヘッドのために、3Dモデルに効果的に転送できない。 3次元幾何学学習のためのTail-Aware Post-Training Quantization PipelineであるTAPTQを提案する。
論文参考訳（メタデータ） (2026-02-02T07:21:15Z)
PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。 PT$2$-LLMを提案する。その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文参考訳（メタデータ） (2025-09-27T03:01:48Z)
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文参考訳（メタデータ） (2025-03-20T21:03:10Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文参考訳（メタデータ） (2024-10-08T11:07:55Z)
Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文参考訳（メタデータ） (2024-07-25T16:35:46Z)
Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference [1.0919012968294923]
本稿では,頭部の疎度を用いてトランスフォーマーを高速化し,疎度をブロックし,注意の計算を減らし,メモリアクセスを減らし,新しいアルゴリズムアーキテクチャの共設計手法を提案する。注目スコアと注目ヘッドの巨大な冗長性を観測し、実行時に注目行列内の重要でないブロックをプルーする整数ベースの行平衡ブロックプルーニングを提案する。また、実行時に重要でないヘッドを検出およびプルーする整数ベースのヘッドプルーニングを提案する。
論文参考訳（メタデータ） (2024-07-17T11:15:16Z)
LPViT: Low-Power Semi-structured Pruning for Vision Transformers [42.91130720962956]
画像解析タスクのための畳み込みニューラルネットワークの代替手段として、ビジョントランスフォーマー(ViT)が登場した。 ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文参考訳（メタデータ） (2024-07-02T08:58:19Z)
SymbolNet: Neural Symbolic Regression with Adaptive Dynamic Pruning for Compression [1.0356366043809717]
モデル圧縮技術として特別に設計された記号回帰に対するニューラルネットワークアプローチである$ttSymbolNet$を提案する。このフレームワークは、単一のトレーニングプロセスにおいてモデルウェイト、入力特徴、数学的演算子の動的プルーニングを可能にする。
論文参考訳（メタデータ） (2024-01-18T12:51:38Z)
TransCODE: Co-design of Transformers and Accelerators for Efficient Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文参考訳（メタデータ） (2023-03-27T02:45:18Z)
Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文参考訳（メタデータ） (2022-12-29T15:10:59Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文参考訳（メタデータ） (2022-08-07T05:48:38Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
An Image Enhancing Pattern-based Sparsity for Real-time Inference on Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文参考訳（メタデータ） (2020-01-20T16:17:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。