論文の概要: FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design
- arxiv url: http://arxiv.org/abs/2505.16335v1
- Date: Thu, 22 May 2025 07:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.127187
- Title: FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design
- Title(参考訳): FPQVAR:FPGAハードウェア共設計による視覚自己回帰モデルのための浮動小数点量子化
- Authors: Renjie Wei, Songqiang Xu, Qingyu Guo, Meng Li,
- Abstract要約: 視覚自己回帰(VAR)モデリングは、次世代の予測から次世代の予測へ、画像生成のパラダイムシフトを象徴している。
メモリと計算コストを削減するため、VARのための効率的な後学習浮動小数点(FP)量子化フレームワークであるFPQvarを提案する。
AMD-Xilinx VCK190 FPGA上の我々のアクセラレータは、整数ベースのアクセラレータよりも3.1倍高い1.1イメージ/sのスループットを達成する。
- 参考スコア(独自算出の注目度): 5.4815337424005355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual autoregressive (VAR) modeling has marked a paradigm shift in image generation from next-token prediction to next-scale prediction. VAR predicts a set of tokens at each step from coarse to fine scale, leading to better image quality and faster inference speed compared to existing diffusion models. However, the large parameter size and computation cost hinder its deployment on edge devices. To reduce the memory and computation cost, we propose FPQVAR, an efficient post-training floating-point (FP) quantization framework for VAR featuring algorithm and hardware co-design. At the algorithm level, we first identify the challenges of quantizing VAR. To address them, we propose Dual Format Quantization for the highly imbalanced input activation. We further propose Group-wise Hadamard Transformation and GHT-Aware Learnable Transformation to address the time-varying outlier channels. At the hardware level, we design the first low-bit FP quantizer and multiplier with lookup tables on FPGA and propose the first FPGA-based VAR accelerator featuring low-bit FP computation and an elaborate two-level pipeline. Extensive experiments show that compared to the state-of-the-art quantization method, our proposed FPQVAR significantly improves Fr\'echet Inception Distance (FID) from 10.83 to 3.58, Inception Score (IS) from 175.9 to 241.5 under 4-bit quantization. FPQVAR also significantly improves the performance of 6-bit quantized VAR, bringing it on par with the FP16 model. Our accelerator on AMD-Xilinx VCK190 FPGA achieves a throughput of 1.1 image/s, which is 3.1x higher than the integer-based accelerator. It also demonstrates 3.6x and 2.8x higher energy efficiency compared to the integer-based accelerator and GPU baseline, respectively.
- Abstract(参考訳): 視覚自己回帰(VAR)モデリングは、次世代の予測から次世代の予測へ、画像生成のパラダイムシフトを象徴している。
VARは、各ステップにおけるトークンの集合を粗いものから細かいものへと予測し、既存の拡散モデルと比較して画像品質と推論速度が向上する。
しかし、大きなパラメータサイズと計算コストは、エッジデバイスへのデプロイを妨げる。
メモリと計算コストを削減するために,アルゴリズムとハードウェアの共同設計によるVARのための効率的な後学習浮動小数点(FP)量子化フレームワークであるFPQVARを提案する。
アルゴリズムレベルでは、まずVARの定量化の課題を特定する。
そこで本稿では,高不均衡な入力アクティベーションを実現するために,Dual Format Quantizationを提案する。
さらに,グループワイド・アダマール変換とGHT-Aware Learnable Transformationを提案する。
ハードウェアレベルでは、FPGA上のルックアップテーブルを備えた最初の低ビットFP量子化器と乗算器を設計し、低ビットFP計算と精巧な2レベルパイプラインを備えたFPGAベースのVARアクセラレータを提案する。
その結果,FPQVARはFr'echet Inception Distance(FID)を10.83から3.58に,IS(Inception Score)を175.9から241.5に改善した。
FPQVARはまた、6ビット量子化VARの性能を大幅に改善し、FP16モデルと同等になった。
AMD-Xilinx VCK190 FPGA上の我々のアクセラレータは、整数ベースのアクセラレータよりも3.1倍高い1.1イメージ/sのスループットを達成する。
また、整数ベースのアクセラレータとGPUベースラインと比較して3.6倍と2.8倍のエネルギー効率を示す。
関連論文リスト
- On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration [1.9965524232168244]
本稿では,Xilinx Kria KV260エッジプラットフォーム上にQwen2.5-0.5Bモデルをデプロイするための効率的なフレームワークを提案する。
我々は,計算集約的な演算をFPGAにインテリジェントにオフロードし,CPUを軽量なタスクに活用するハイブリッド実行戦略を提案する。
本フレームワークは,従来のモデルと比較して55.08%のモデル圧縮率を実現し,5.1トークン/秒で出力し,2.8トークン/秒のベースライン性能を上回った。
論文 参考訳(メタデータ) (2025-04-24T08:50:01Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。
CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。
提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文 参考訳(メタデータ) (2023-04-24T22:20:42Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision
Transformer with Mixed-Scheme Quantization [78.18328503396057]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。
本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-10T05:54:46Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。
本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。
FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文 参考訳(メタデータ) (2020-07-16T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。