論文の概要: A Multi-Stage Optimization Framework for Deploying Learned Image Compression on FPGAs
- arxiv url: http://arxiv.org/abs/2511.17135v1
- Date: Fri, 21 Nov 2025 10:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.979386
- Title: A Multi-Stage Optimization Framework for Deploying Learned Image Compression on FPGAs
- Title(参考訳): FPGA上での学習画像圧縮のデプロイのための多段階最適化フレームワーク
- Authors: Jiaxun Fang, Li Chen,
- Abstract要約: ディープラーニングベースの画像圧縮(lic)は、最先端のレート歪み(RD)性能を達成したが、これらのモデルをリソース制約付きFPGAにデプロイすることは大きな課題である。
この研究は、高性能浮動小数点モデルと効率的なハードウェアフレンドリな整数ベースの実装とのギャップを埋める、完全なマルチステージ最適化フレームワークを提供する。
- 参考スコア(独自算出の注目度): 7.577235739757108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based image compression (LIC) has achieved state-of-the-art rate-distortion (RD) performance, yet deploying these models on resource-constrained FPGAs remains a major challenge. This work presents a complete, multi-stage optimization framework to bridge the gap between high-performance floating-point models and efficient, hardware-friendly integer-based implementations. First, we address the fundamental problem of quantization-induced performance degradation. We propose a Dynamic Range-Aware Quantization (DRAQ) method that uses statistically-calibrated activation clipping and a novel weight regularization scheme to counteract the effects of extreme data outliers and large dynamic ranges, successfully creating a high-fidelity 8-bit integer model. Second, building on this robust foundation, we introduce two hardware-aware optimization techniques tailored for FPGAs. A progressive mixed-precision search algorithm exploits FPGA flexibility to assign optimal, non-uniform bit-widths to each layer, minimizing complexity while preserving performance. Concurrently, a channel pruning method, adapted to work with the Generalized Divisive Normalization (GDN) layers common in LIC, removes model redundancy by eliminating inactive channels. Our comprehensive experiments show that the foundational DRAQ method reduces the BD-rate overhead of a GDN-based model from $30\%$ to $6.3\%$. The subsequent hardware-aware optimizations further reduce computational complexity by over $20\%$ with negligible impact on RD performance, yielding a final model that is both state-of-the-art in efficiency and superior in quality to existing FPGA-based LIC implementations.
- Abstract(参考訳): ディープラーニングベースの画像圧縮(lic)は、最先端のレート歪み(RD)性能を達成したが、これらのモデルをリソース制約付きFPGAにデプロイすることは大きな課題である。
この研究は、高性能浮動小数点モデルと効率的なハードウェアフレンドリな整数ベースの実装とのギャップを埋める、完全なマルチステージ最適化フレームワークを提供する。
まず,量子化による性能劣化の根本的な問題に対処する。
統計的に校正されたアクティベーションクリッピングと、極端なデータアウトレーヤと大きなダイナミックレンジの影響を対処する新しい重み正規化スキームを用いて、高忠実度8ビット整数モデルの作成に成功した動的レンジ対応量子化(DRAQ)法を提案する。
第二に、この堅牢な基盤の上に構築され、FPGAに適したハードウェア対応最適化技術が2つ導入される。
プログレッシブな混合精度探索アルゴリズムはFPGAの柔軟性を利用して各層に最適で一様でないビット幅を割り当て、性能を保ちながら複雑さを最小限に抑える。
同時に、licに共通する一般化分割正規化(GDN)層で動作するように適応したチャネルプルーニング法は、不活性チャネルを除去することによってモデル冗長性を除去する。
包括的実験により、基礎的DRAQ法はGDNモデルにおけるBD-rateオーバーヘッドを30 %$から6.3 %$に削減することを示した。
その後のハードウェア・アウェアの最適化により、RD性能に無視できない影響を与え、計算複雑性をさらに20 %以上削減する。
関連論文リスト
- Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [26.150559375072476]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。