論文の概要: Controllable Distortion-Perception Tradeoff Through Latent Diffusion for Neural Image Compression
- arxiv url: http://arxiv.org/abs/2412.11379v1
- Date: Mon, 16 Dec 2024 02:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:55:18.401177
- Title: Controllable Distortion-Perception Tradeoff Through Latent Diffusion for Neural Image Compression
- Title(参考訳): ニューラル画像圧縮のための遅延拡散による制御可能な歪み知覚トレードオフ
- Authors: Chuqin Zhou, Guo Lu, Jiangchuan Li, Xiangyu Chen, Zhengxue Cheng, Li Song, Wenjun Zhang,
- Abstract要約: ニューラル画像圧縮は、レート、歪み、知覚の間で難しいトレードオフに直面していることが多い。
固定されたニューラルイメージの両面を同時に扱う新しいアプローチを提案する。
1dB以上のPSNRを犠牲にすることなくLPIPS-BDRateを150%以上改善できる。
- 参考スコア(独自算出の注目度): 30.293252608423742
- License:
- Abstract: Neural image compression often faces a challenging trade-off among rate, distortion and perception. While most existing methods typically focus on either achieving high pixel-level fidelity or optimizing for perceptual metrics, we propose a novel approach that simultaneously addresses both aspects for a fixed neural image codec. Specifically, we introduce a plug-and-play module at the decoder side that leverages a latent diffusion process to transform the decoded features, enhancing either low distortion or high perceptual quality without altering the original image compression codec. Our approach facilitates fusion of original and transformed features without additional training, enabling users to flexibly adjust the balance between distortion and perception during inference. Extensive experimental results demonstrate that our method significantly enhances the pretrained codecs with a wide, adjustable distortion-perception range while maintaining their original compression capabilities. For instance, we can achieve more than 150% improvement in LPIPS-BDRate without sacrificing more than 1 dB in PSNR.
- Abstract(参考訳): ニューラル画像圧縮は、レート、歪み、知覚の間で難しいトレードオフに直面していることが多い。
既存のほとんどの手法は、高ピクセルレベルの忠実度を達成するか、知覚的メトリクスを最適化するかに重点を置いているが、固定されたニューラルイメージコーデックの両面に同時に対処する新しいアプローチを提案する。
具体的には、デコーダ側のプラグアンドプレイモジュールを導入し、遅延拡散プロセスを利用してデコーダの特徴を変換し、元の画像圧縮コーデックを変更することなく、低歪みまたは高知覚品質を向上する。
提案手法は,新たなトレーニングを伴わずにオリジナルとトランスフォーメーションの融合を促進し,ユーザが推論中に歪みと知覚のバランスを柔軟に調整できるようにする。
実験結果から,本手法は圧縮性能を維持しつつ,広範かつ調整可能な歪み知覚範囲を有する事前学習コーデックを著しく向上させることを示した。
例えば、1dB以上のPSNRを犠牲にすることなくLPIPS-BDRateを150%以上改善することができる。
関連論文リスト
- Rate-Distortion-Cognition Controllable Versatile Neural Image Compression [47.72668401825835]
速度歪み認識制御可能な多目的画像圧縮法を提案する。
本手法は, 良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御を実現する。
論文 参考訳(メタデータ) (2024-07-16T13:17:51Z) - Enhancing Perception Quality in Remote Sensing Image Compression via Invertible Neural Network [10.427300958330816]
リモートセンシング画像をデコードして、特に低解像度で高い知覚品質を実現することは、依然として大きな課題である。
Invertible Neural Network-based Remote Sensor Image compression (INN-RSIC)法を提案する。
我々の INN-RSIC は、認識品質の観点から、既存の最先端のディープラーニングベースの画像圧縮手法よりも優れています。
論文 参考訳(メタデータ) (2024-05-17T03:52:37Z) - Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-05T11:48:35Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - High-Fidelity Variable-Rate Image Compression via Invertible Activation
Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。
IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。
提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-09-12T07:14:07Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Substitutional Neural Image Compression [48.20906717052056]
置換型ニューラルイメージ圧縮(snic)は、あらゆるニューラルイメージ圧縮モデルを強化する一般的なアプローチである。
フレキシブルな歪みメトリックに向けて圧縮性能を高め、単一のモデルインスタンスを使用したビットレート制御を可能にする。
論文 参考訳(メタデータ) (2021-05-16T20:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。