論文の概要: FEDS: Feature and Entropy-Based Distillation Strategy for Efficient Learned Image Compression
- arxiv url: http://arxiv.org/abs/2503.06399v1
- Date: Sun, 09 Mar 2025 02:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:20.835994
- Title: FEDS: Feature and Entropy-Based Distillation Strategy for Efficient Learned Image Compression
- Title(参考訳): FEDS:効率的な学習画像圧縮のための特徴とエントロピーに基づく蒸留戦略
- Authors: Haisheng Fu, Jie Liang, Zhenman Fang, Jingning Han,
- Abstract要約: 学習画像圧縮(lic)法は、最近、速度歪み性能においてVVCなどの従来のコーデックよりも優れている。
本稿では,まず,Swin-Transformer V2ベースのアテンションモジュールを統合することで,高容量教師モデルを構築する。
次に、教師から軽量の学生モデルに重要な知識を伝達するアンダーラインFeatureとアンダーラインEntropyベースのアンダーラインDistillation underlineStrategy(textbfFEDS)を提案する。
- 参考スコア(独自算出の注目度): 12.280695635625737
- License:
- Abstract: Learned image compression (LIC) methods have recently outperformed traditional codecs such as VVC in rate-distortion performance. However, their large models and high computational costs have limited their practical adoption. In this paper, we first construct a high-capacity teacher model by integrating Swin-Transformer V2-based attention modules, additional residual blocks, and expanded latent channels, thus achieving enhanced compression performance. Building on this foundation, we propose a \underline{F}eature and \underline{E}ntropy-based \underline{D}istillation \underline{S}trategy (\textbf{FEDS}) that transfers key knowledge from the teacher to a lightweight student model. Specifically, we align intermediate feature representations and emphasize the most informative latent channels through an entropy-based loss. A staged training scheme refines this transfer in three phases: feature alignment, channel-level distillation, and final fine-tuning. Our student model nearly matches the teacher across Kodak (1.24\% BD-Rate increase), Tecnick (1.17\%), and CLIC (0.55\%) while cutting parameters by about 63\% and accelerating encoding/decoding by around 73\%. Moreover, ablation studies indicate that FEDS generalizes effectively to transformer-based networks. The experimental results demonstrate our approach strikes a compelling balance among compression performance, speed, and model parameters, making it well-suited for real-time or resource-limited scenarios.
- Abstract(参考訳): 学習画像圧縮(lic)法は、最近、速度歪み性能においてVVCなどの従来のコーデックよりも優れている。
しかし、彼らの大きなモデルと高い計算コストは、その実践的採用を制限している。
本稿では,まず,Swin-Transformer V2ベースのアテンションモジュール,追加の残差ブロック,拡張された遅延チャネルを統合し,圧縮性能を向上させることで,高容量教師モデルを構築する。
この基礎の上に、教師から軽量の学生モデルに重要な知識を伝達する、Shaunderline{F}eature と \underline{E}ntropy-based \underline{D}istillation \underline{S}trategy (\textbf{FEDS})を提案する。
具体的には、中間的特徴表現を整列させ、エントロピーに基づく損失を通じて最も情報に富む潜在チャネルを強調する。
段階的なトレーニングスキームは、特徴調整、チャネルレベルの蒸留、最終的な微調整の3段階において、この移行を洗練させる。
学生モデルは,コダック (1.24\% BD-Rate increase), Tecnick (1.17\%), CLIC (0.55\%) とほぼ一致し,パラメータを63\%削減し,符号化/復号化を約73\%加速した。
さらに、アブレーション研究は、FEDSがトランスフォーマーベースのネットワークに効果的に一般化することを示唆している。
実験の結果, 圧縮性能, 速度, モデルパラメータのバランスが良好であることを示し, 実時間・資源制限シナリオに適していることがわかった。
関連論文リスト
- Linear Attention Modeling for Learned Image Compression [20.691429578976763]
学習画像圧縮のための線形アテンションモデルであるLALICを提案する。
具体的には、Spatial MixおよびChannel Mixモジュールを利用したBi-RWKVブロックを提案する。
また、RWKV-SCCTXモデル(RWKV-SCCTX)を提案する。
論文 参考訳(メタデータ) (2025-02-09T01:57:17Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Accelerating Learnt Video Codecs with Gradient Decay and Layer-wise
Distillation [17.980800481385195]
本稿では, 勾配減衰と適応層ワイド蒸留に基づく新しいモデル非依存プルーニング手法を提案する。
その結果,BD-PSNRでは最大65%のMACと2倍のスピードアップ,0.3dB未満のBD-PSNRが得られた。
論文 参考訳(メタデータ) (2023-12-05T09:26:09Z) - Reducing The Amortization Gap of Entropy Bottleneck In End-to-End Image
Compression [2.1485350418225244]
エンド・ツー・エンドのディープ・トレーニング可能なモデルは、ビデオや画像の従来の手作り圧縮技術の性能をほぼ上回っている。
本稿では,このアモート化ギャップを小さなコストで低減する,シンプルで効率的なインスタンスベースのパラメータ化手法を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:43:45Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z) - End-to-End Facial Deep Learning Feature Compression with Teacher-Student
Enhancement [57.18801093608717]
本稿では,ディープニューラルネットワークの表現と学習能力を活用することで,エンドツーエンドの特徴圧縮手法を提案する。
特に、抽出した特徴量を、レート歪みコストを最適化することにより、エンドツーエンドでコンパクトに符号化する。
提案モデルの有効性を顔の特徴で検証し, 圧縮性能を高いレート精度で評価した。
論文 参考訳(メタデータ) (2020-02-10T10:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。