Fugu-MT 論文翻訳(概要): Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization

論文の概要: Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization

arxiv url: http://arxiv.org/abs/2503.04832v5
Date: Tue, 25 Mar 2025 09:08:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 15:05:42.293493
Title: Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization
Title（参考訳）: 知識蒸留とハイブリッド量子化による学習画像圧縮の軽量組み込みFPGA展開
Authors: Alaa Mazouz, Sumanta Chaudhuri, Marco Cagnanzzo, Mihai Mitrea, Enzo Tartaglione, Attilio Fiandrotti,
Abstract要約: 学習可能な画像圧縮は、RD効率で標準化されたビデオコーデックを上回る可能性を示している。既存のハードウェア実装の多くは、RD効率に遅延を優先順位付けし、ハードウェア設計空間を広範囲に調査している。本稿では,RD効率を損なうことなく,特定のハードウェアプラットフォームの設計の調整の負担をモデル次元にシフトする,新しい設計パラダイムを提案する。
参考スコア（独自算出の注目度）: 9.204678073765917
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learnable Image Compression (LIC) has shown the potential to outperform standardized video codecs in RD efficiency, prompting the research for hardware-friendly implementations. Most existing LIC hardware implementations prioritize latency to RD-efficiency and through an extensive exploration of the hardware design space. We present a novel design paradigm where the burden of tuning the design for a specific hardware platform is shifted towards model dimensioning and without compromising on RD-efficiency. First, we design a framework for distilling a leaner student LIC model from a reference teacher: by tuning a single model hyperparameters, we can meet the constraints of different hardware platforms without a complex hardware design exploration. Second, we propose a hardware-friendly implementation of the Generalized Divisive Normalization - GDN activation that preserves RD efficiency even post parameter quantization. Third, we design a pipelined FPGA configuration which takes full advantage of available FPGA resources by leveraging parallel processing and optimizing resource allocation. Our experiments with a state of the art LIC model show that we outperform all existing FPGA implementations while performing very close to the original model.
Abstract（参考訳）: Learnable Image Compression (lic)は、RD効率で標準化されたビデオコーデックを上回り、ハードウェアフレンドリーな実装の研究を促進する可能性を示している。既存のハードウェア実装の多くは、RD効率に遅延を優先順位付けし、ハードウェア設計空間を広範囲に調査している。本稿では,RD効率を損なうことなく,特定のハードウェアプラットフォームの設計の調整の負担をモデル次元にシフトする,新しい設計パラダイムを提案する。まず,1つのモデルハイパーパラメータをチューニングすることで,複雑なハードウェア設計の探究なしに,異なるハードウェアプラットフォームの制約を満たすことができる。第2に,RD効率を保ち,パラメータの量子化も行うGDNアクティベーションのハードウェアフレンドリーな実装を提案する。第3に、並列処理とリソース割り当ての最適化により、利用可能なFPGAリソースをフル活用するパイプラインFPGA構成を設計する。最先端のFPGAモデルを用いた実験により,既存のFPGA実装よりも優れた性能を示しながら,元のモデルに非常に近い性能を実現した。

関連論文リスト

Plain Transformers are Surprisingly Powerful Link Predictors [57.01966734467712]
リンク予測はグラフ機械学習における中核的な課題であり、リッチで複雑なトポロジ的依存関係をキャプチャするモデルを必要とする。グラフニューラルネットワーク(GNN)が標準的なソリューションであるのに対して、最先端のパイプラインは明示的な構造やメモリ集約的なノードの埋め込みに依存していることが多い。本報告では,手作りのプリミティブに置き換えるエンコーダのみのプレーントランスであるPENCILについて,サンプリングしたローカルサブグラフに注目する。
論文参考訳（メタデータ） (2026-02-02T02:45:52Z)
A Multi-Stage Optimization Framework for Deploying Learned Image Compression on FPGAs [7.577235739757108]
ディープラーニングベースの画像圧縮(lic)は、最先端のレート歪み(RD)性能を達成したが、これらのモデルをリソース制約付きFPGAにデプロイすることは大きな課題である。この研究は、高性能浮動小数点モデルと効率的なハードウェアフレンドリな整数ベースの実装とのギャップを埋める、完全なマルチステージ最適化フレームワークを提供する。
論文参考訳（メタデータ） (2025-11-21T10:55:44Z)
Implémentation Efficiente de Fonctions de Convolution sur FPGA à l'Aide de Blocs Paramétrables et d'Approximations Polynomiales [0.3966519779235704]
フィールドプログラマブルゲートアレイ(FPGA)に畳み込みニューラルネットワーク(CNN)を実装することが、GPUに代わる有望な選択肢として浮上している。本稿では、FPGAの実装を最適化し、利用可能なリソースに適応するために設計された畳み込みブロックのライブラリを提案する。また、FPGA資源利用を予測する数学的モデルを開発するための方法論的フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-03T15:58:20Z)
QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文参考訳（メタデータ） (2025-06-24T17:57:26Z)
FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文参考訳（メタデータ） (2025-06-13T07:59:52Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
AI-Driven Optimization of Hardware Overlay Configurations [0.0]
本稿では,FPGAオーバレイ構成を最適化するAI駆動方式を提案する。機械学習技術を活用することで、ハードウェアコンパイル前のさまざまな構成の実現可能性と効率を予測する。
論文参考訳（メタデータ） (2025-03-08T22:34:47Z)
Runtime Tunable Tsetlin Machines for Edge Inference on eFPGAs [0.2294388534633318]
eFPGAはエッジ機械学習(ML)アプリケーションのハードウェアアクセラレータを低消費電力で設計することができる。限られたeFPGA論理とメモリは計算能力とモデルサイズを著しく制限した。提案するeFPGAアクセラレータは、リソース使用量の最小化と、スループットに対するオンフィールドリカバリの柔軟性の実現に重点を置いている。
論文参考訳（メタデータ） (2025-02-10T12:49:22Z)
AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文参考訳（メタデータ） (2024-07-17T18:38:48Z)
Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-20T17:08:42Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文参考訳（メタデータ） (2023-12-23T04:27:06Z)
Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文参考訳（メタデータ） (2023-05-24T16:08:55Z)
HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。 HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文参考訳（メタデータ） (2023-03-30T08:25:27Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。 LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文参考訳（メタデータ） (2022-09-28T12:55:35Z)
Open-source FPGA-ML codesign for the MLPerf Tiny Benchmark [11.575901540758574]
我々は,フィールドプログラマブルゲートアレイ(FPGA)プラットフォーム上でのTiny Inference Benchmarkの開発経験を示す。我々は、FPGA上で最適化されたニューラルネットワークのAIハードウェアコーデックを民主化することを目的として、オープンソースのhls4mlとFINN perJを使用している。ソリューションはシステムオンチップ(Pynq-Z2)と純粋なFPGA(Arty A7-100T)プラットフォームにデプロイされる。
論文参考訳（メタデータ） (2022-06-23T15:57:17Z)
VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。 FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文参考訳（メタデータ） (2022-01-17T20:27:52Z)
HALF: Holistic Auto Machine Learning for FPGAs [1.9146960682777232]
ディープニューラルネットワーク(DNN)は、画像や自然言語処理などの組み込みシステムに関連する領域において、複雑な問題を解決することができる。特定のFPGAプラットフォームにDNNを効率よく実装するためには、例えばエネルギー効率など、膨大な設計パラメータを考慮する必要がある。 FPGA上でのDNN実装の質は, 自動的, 全体的設計手法により大幅に向上する。
論文参考訳（メタデータ） (2021-06-28T14:45:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。