論文の概要: Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders
- arxiv url: http://arxiv.org/abs/2403.02887v1
- Date: Tue, 5 Mar 2024 11:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-06 15:10:13.305206
- Title: Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders
- Title(参考訳): 条件付き拡散デコーダを用いた学習画像コーデックの速度歪み知覚フレキシビリティ向上
- Authors: Daniele Mari, Simone Milani
- Abstract要約: 本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 7.485128109817576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned image compression codecs have recently achieved impressive
compression performances surpassing the most efficient image coding
architectures. However, most approaches are trained to minimize rate and
distortion which often leads to unsatisfactory visual results at low bitrates
since perceptual metrics are not taken into account. In this paper, we show
that conditional diffusion models can lead to promising results in the
generative compression task when used as a decoder, and that, given a
compressed representation, they allow creating new tradeoff points between
distortion and perception at the decoder side based on the sampling method.
- Abstract(参考訳): 学習された画像圧縮コーデックは、最も効率的な画像符号化アーキテクチャを超える印象的な圧縮性能を達成した。
しかし、ほとんどのアプローチは速度と歪みを最小化するために訓練されており、知覚的メトリクスが考慮されないため、低ビットレートで不満足な視覚結果をもたらすことが多い。
本稿では,条件拡散モデルがデコーダとして使用する場合,生成圧縮タスクに有望な結果をもたらす可能性を示し,圧縮表現が与えられると,サンプリング法に基づいてデコーダ側での歪みと知覚のトレードオフ点を新たに作成できることを示す。
関連論文リスト
- Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Controllable Distortion-Perception Tradeoff Through Latent Diffusion for Neural Image Compression [30.293252608423742]
ニューラル画像圧縮は、レート、歪み、知覚の間で難しいトレードオフに直面していることが多い。
固定されたニューラルイメージの両面を同時に扱う新しいアプローチを提案する。
1dB以上のPSNRを犠牲にすることなくLPIPS-BDRateを150%以上改善できる。
論文 参考訳(メタデータ) (2024-12-16T02:09:32Z) - Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption [57.056311855630916]
本稿では,制御可能な生成画像圧縮フレームワークである制御-GICを提案する。
高忠実度および一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。
我々は、歴史的符号化された多粒度表現に遡ることができる条件条件付き条件付けを開発する。
論文 参考訳(メタデータ) (2024-06-02T14:22:09Z) - Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - Towards image compression with perfect realism at ultra-low bitrates [28.511327714128413]
当社のモデルPerCoを"知覚圧縮"としてダブし、最先端コーデックを0.1から0.003ビット/ピクセルのレートで比較します。
FID と KID によって測定された現状の視覚的品質によって,本モデルが再構築に繋がることがわかった。
論文 参考訳(メタデータ) (2023-10-16T12:08:35Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。