Fugu-MT 論文翻訳(概要): Enhancing the Rate-Distortion-Perception Flexibility of Learned Image Codecs with Conditional Diffusion Decoders

論文の概要: Enhancing the Rate-Distortion-Perception Flexibility of Learned Image Codecs with Conditional Diffusion Decoders

arxiv url: http://arxiv.org/abs/2403.02887v1
Date: Tue, 5 Mar 2024 11:48:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 15:10:13.305206
Title: Enhancing the Rate-Distortion-Perception Flexibility of Learned Image Codecs with Conditional Diffusion Decoders
Title（参考訳）: 条件付き拡散デコーダを用いた学習画像コーデックの速度歪み知覚フレキシビリティ向上
Authors: Daniele Mari, Simone Milani
Abstract要約: 本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
参考スコア（独自算出の注目度）: 7.485128109817576
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learned image compression codecs have recently achieved impressive compression performances surpassing the most efficient image coding architectures. However, most approaches are trained to minimize rate and distortion which often leads to unsatisfactory visual results at low bitrates since perceptual metrics are not taken into account. In this paper, we show that conditional diffusion models can lead to promising results in the generative compression task when used as a decoder, and that, given a compressed representation, they allow creating new tradeoff points between distortion and perception at the decoder side based on the sampling method.
Abstract（参考訳）: 学習された画像圧縮コーデックは、最も効率的な画像符号化アーキテクチャを超える印象的な圧縮性能を達成した。しかし、ほとんどのアプローチは速度と歪みを最小化するために訓練されており、知覚的メトリクスが考慮されないため、低ビットレートで不満足な視覚結果をもたらすことが多い。本稿では,条件拡散モデルがデコーダとして使用する場合,生成圧縮タスクに有望な結果をもたらす可能性を示し,圧縮表現が与えられると,サンプリング法に基づいてデコーダ側での歪みと知覚のトレードオフ点を新たに作成できることを示す。

関連論文リスト

StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文参考訳（メタデータ） (2025-06-27T07:39:21Z)
DiffO: Single-step Diffusion for Image Compression at Ultra-Low Bitrates [7.344746778324299]
画像圧縮(DiffO)のための最初の単一ステップ拡散モデルを提案する。実験の結果,DiffOは従来の拡散法に比べてデコード速度を50倍向上させながら,圧縮性能を上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-19T19:53:27Z)
Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。 CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文参考訳（メタデータ） (2025-05-19T14:13:14Z)
Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文参考訳（メタデータ） (2025-03-27T13:01:53Z)
Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
Controllable Distortion-Perception Tradeoff Through Latent Diffusion for Neural Image Compression [30.293252608423742]
ニューラル画像圧縮は、レート、歪み、知覚の間で難しいトレードオフに直面していることが多い。固定されたニューラルイメージの両面を同時に扱う新しいアプローチを提案する。 1dB以上のPSNRを犠牲にすることなくLPIPS-BDRateを150%以上改善できる。
論文参考訳（メタデータ） (2024-12-16T02:09:32Z)
Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption [57.056311855630916]
本稿では,制御可能な生成画像圧縮フレームワークである制御-GICを提案する。高忠実度および一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。我々は、歴史的符号化された多粒度表現に遡ることができる条件条件付き条件付けを開発する。
論文参考訳（メタデータ） (2024-06-02T14:22:09Z)
Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文参考訳（メタデータ） (2024-04-07T10:57:54Z)
Towards image compression with perfect realism at ultra-low bitrates [28.511327714128413]
当社のモデルPerCoを"知覚圧縮"としてダブし、最先端コーデックを0.1から0.003ビット/ピクセルのレートで比較します。 FID と KID によって測定された現状の視覚的品質によって,本モデルが再構築に繋がることがわかった。
論文参考訳（メタデータ） (2023-10-16T12:08:35Z)
Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。 VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文参考訳（メタデータ） (2023-07-17T06:14:19Z)
Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文参考訳（メタデータ） (2022-06-17T16:46:31Z)
Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文参考訳（メタデータ） (2022-04-26T01:35:02Z)
Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文参考訳（メタデータ） (2022-01-27T20:20:03Z)
Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。 Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-22T04:04:56Z)
Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文参考訳（メタデータ） (2020-03-25T09:04:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。