論文の概要: Fast Training-free Perceptual Image Compression
- arxiv url: http://arxiv.org/abs/2506.16102v1
- Date: Thu, 19 Jun 2025 07:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.980975
- Title: Fast Training-free Perceptual Image Compression
- Title(参考訳): 高速トレーニングフリーの知覚画像圧縮
- Authors: Ziran Zhu, Tongda Xu, Minye Huang, Dailan He, Xingtong Ge, Xinjie Zhang, Ling Li, Yan Wang,
- Abstract要約: トレーニング不要な知覚画像は、デコード中に事前訓練された無条件生成モデルを採用し、新しい条件生成モデルのトレーニングを避ける。
本稿では,理論的な保証を伴って,既存の知覚的品質を向上する学習自由アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.066906831322132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training-free perceptual image codec adopt pre-trained unconditional generative model during decoding to avoid training new conditional generative model. However, they heavily rely on diffusion inversion or sample communication, which take 1 min to intractable amount of time to decode a single image. In this paper, we propose a training-free algorithm that improves the perceptual quality of any existing codec with theoretical guarantee. We further propose different implementations for optimal perceptual quality when decoding time budget is $\approx 0.1$s, $0.1-10$s and $\ge 10$s. Our approach: 1). improves the decoding time of training-free codec from 1 min to $0.1-10$s with comparable perceptual quality. 2). can be applied to non-differentiable codec such as VTM. 3). can be used to improve previous perceptual codecs, such as MS-ILLM. 4). can easily achieve perception-distortion trade-off. Empirically, we show that our approach successfully improves the perceptual quality of ELIC, VTM and MS-ILLM with fast decoding. Our approach achieves comparable FID to previous training-free codec with significantly less decoding time. And our approach still outperforms previous conditional generative model based codecs such as HiFiC and MS-ILLM in terms of FID. The source code is provided in the supplementary material.
- Abstract(参考訳): トレーニング不要な知覚画像コーデックは、デコード中に事前訓練された無条件生成モデルを採用し、新しい条件生成モデルのトレーニングを避ける。
しかし、拡散インバージョンやサンプル通信に大きく依存しており、1枚の画像をデコードするのに1分かかる。
本稿では,既存のコーデックの知覚品質を理論的保証付きで向上する学習自由アルゴリズムを提案する。
さらに,デコード時間予算が$\approx 0.1$s,$0.1-10$s,$\ge 10$sの場合に,最適な知覚品質を実現するための異なる実装を提案する。
アプローチ:1)。
トレーニング不要のコーデックの復号時間を1分から0.1-10$sに改善する。
2)。
VTMのような非微分可能コーデックに適用できる。
3)。
MS-ILLMのような従来の知覚コーデックを改善するために使用できる。
4)。
容易に知覚歪曲トレードオフを達成できます。
実験により,提案手法は高速復号化により,ELIC,VTM,MS-ILLMの知覚品質を向上することを示す。
提案手法は,従来のトレーニング不要コーデックと同等のFIDを実現し,復号時間を大幅に短縮する。
提案手法は, 従来の条件付き生成モデルベースコーデック, HiFiC や MS-ILLM を FID で上回っている。
ソースコードは補足材料に提供される。
関連論文リスト
- DiffO: Single-step Diffusion for Image Compression at Ultra-Low Bitrates [7.344746778324299]
画像圧縮(DiffO)のための最初の単一ステップ拡散モデルを提案する。
実験の結果,DiffOは従来の拡散法に比べてデコード速度を50倍向上させながら,圧縮性能を上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-19T19:53:27Z) - UniMIC: Towards Universal Multi-modality Perceptual Image Compression [21.370591256689885]
汎用多モード画像圧縮フレームワークUniMICを提案する。
UniMICは、複数の画像コーデックに対するRDP最適化を統一することを目的としている。
論文 参考訳(メタデータ) (2024-12-06T10:08:55Z) - Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
時間予測はビデオ圧縮において最も重要な技術の一つである。
従来のビデオコーデックは、予測品質と基準品質に応じて最適な符号化モードを適応的に決定する。
本稿では,信頼性に基づく予測品質適応(PQA)モジュールと基準品質適応(RQA)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Adaptation and Attention for Neural Video Coding [23.116987835862314]
本稿では,いくつかの建築ノベルティとトレーニングノベルティを紹介するエンド・ツー・エンドの学習ビデオを提案する。
1つのアーキテクチャ上の特徴として,入力ビデオの解像度に基づいて動き推定プロセスを適用するために,フレーム間モデルをトレーニングすることを提案する。
第2のアーキテクチャノベルティは、分割アテンションベースのニューラルネットワークとDenseNetsの概念を組み合わせた、新しいニューラルブロックである。
論文 参考訳(メタデータ) (2021-12-16T10:25:49Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Psychoacoustic Calibration of Loss Functions for Efficient End-to-End
Neural Audio Coding [30.307627653506756]
ニューラルオーディオ符号化システムの損失関数を再定義するための心理音響校正方式を提案する。
提案手法では、わずか0.9万パラメータの軽量ニューラルネットワークが、商用mpeg-1オーディオ層iiiに匹敵するほぼ透過的なオーディオ符号化を112kbpsで実行する。
論文 参考訳(メタデータ) (2020-12-31T19:46:46Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。