論文の概要: ViM-Q: Scalable Algorithm-Hardware Co-Design for Vision Mamba Model Inference on FPGA
- arxiv url: http://arxiv.org/abs/2605.01935v1
- Date: Sun, 03 May 2026 15:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.004019
- Title: ViM-Q: Scalable Algorithm-Hardware Co-Design for Vision Mamba Model Inference on FPGA
- Title(参考訳): ViM-Q:FPGA上の視覚マンバモデル推論のためのスケーラブルアルゴリズムハードウェア共設計
- Authors: Shengzhe Lyu, Yuhan She, Patrick S. Y. Hung, Ray C. C. Cheung, Weitao Xu,
- Abstract要約: Vision Mamba (ViM)モデルは、Transformerよりも魅力的な効率性を提供する。
しかし、FPGAに効率的にデプロイすることは依然として難しい。
エッジ上でのエンドツーエンドのViM推論のための,スケーラブルなアルゴリズムとハードウェアの共同設計であるViM-Qを提案する。
- 参考スコア(独自算出の注目度): 5.3052664712829545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Mamba (ViM) models offer a compelling efficiency advantage over Transformers by leveraging the linear complexity of State Space Models (SSMs), yet efficiently deploying them on FPGAs remains challenging. Linear layers struggle with dynamic activation outliers that render static quantization ineffective, while uniform quantization fails to capture the weight distribution at low bit-widths. Furthermore, while associative scan accelerates SSMs on GPUs, its memory access patterns are misaligned with the streaming dataflow required by FPGAs. To address these challenges, we present ViM-Q, a scalable algorithm-hardware co-design for end-to-end ViM inference on the edge. We introduce a hardware-aware quantization scheme combining dynamic per-token activation quantization and per-channel smoothing to mitigate outliers, alongside a custom 4-bit per-block Additive Power-of-Two (APoT) weight quantization. The models are deployed on a runtime-parameterizable FPGA accelerator featuring a linear engine employing a Lookup-Table (LUT) unit to replace multiplications with shift-add operations, and a fine-grained pipelined SSM engine that parallelizes the state dimension while preserving sequential recurrence. Crucially, the hardware supports runtime configuration, adapting to diverse dimensions and input resolutions across the ViM family. Implemented on an AMD ZCU102 FPGA, ViM-Q achieves an average 4.96x speedup and 59.8x energy efficiency gain over a quantized NVIDIA RTX 3090 GPU baseline for low-batch inference on ViM-tiny. This co-design shows a viable path for deploying ViM models on resource-constrained edge devices.
- Abstract(参考訳): Vision Mamba(ViM)モデルは、状態空間モデル(SSM)の線形複雑性を活用することで、トランスフォーマーよりも魅力的な効率性を提供するが、FPGAにそれらを効率的にデプロイすることは依然として困難である。
線形層は、静的量子化を非効率に行う動的アクティベーション・アウトレイアに苦慮する一方、均一な量子化は低ビット幅での重み分布を捉えることに失敗する。
さらに、連想スキャンはGPU上のSSMを加速するが、そのメモリアクセスパターンはFPGAが要求するストリーミングデータフローと不一致である。
これらの課題に対処するために、エッジ上のエンドツーエンドのViM推論のためのスケーラブルなアルゴリズムハードウェアの共同設計であるViM-Qを提案する。
そこで本研究では,動的/トーケンアクティベーション量子化とチャネルごとの平滑化を組み合わせたハードウェア対応量子化手法を提案する。
モデルは、Lookup-Table (LUT) ユニットを使用したリニアエンジンを使用して、乗算をシフト加算演算に置き換えるランタイムパラメータ化可能なFPGAアクセラレータと、逐次繰り返し保存しながら状態次元を並列化する細粒度パイプラインSSMエンジンにデプロイされる。
重要な点として、ハードウェアは実行時設定をサポートし、ViMファミリ全体にわたる様々な次元と入力解像度に対応している。
AMD ZCU102 FPGAに実装されたViM-Qは、ViM-tiny上での低バッチ推論のために、量子化されたNVIDIA RTX 3090 GPUベースラインよりも平均4.96倍のスピードアップと59.8倍のエネルギー効率向上を達成する。
この共同設計は、リソース制約のあるエッジデバイスにViMモデルをデプロイするための実行可能なパスを示している。
関連論文リスト
- BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - Design and Implementation of an FPGA-Based Hardware Accelerator for Transformer [0.0]
トランスフォーマーベースの大規模言語モデルは、注意層とフィードフォワード層のための行列乗法に大きく依存している。
資源制約付き Xilinx KV260 FPGA 上で,高度に最適化されたタイル行列乗算アクセラレータを提案する。
我々の設計では、永続的なオンチップストレージ、最大データ再利用のための堅牢な2レベルタイリング戦略、およびシストリックのような非ローリング計算エンジンを活用している。
論文 参考訳(メタデータ) (2025-03-20T22:15:42Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference [4.216765320139095]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンへの機械学習アプローチにおける画期的なシフトである。
本稿では,これらの課題に対処するソフトウェアハードウェアの共同設計フレームワークであるCHOSENを紹介し,FPGA上にViTをデプロイするための自動フレームワークを提供する。
ChoSENはDeiT-SとDeiT-Bモデルのスループットを1.5倍と1.42倍改善した。
論文 参考訳(メタデータ) (2024-07-17T16:56:06Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。