論文の概要: Exploiting Semantic and Pixel Representations for Ultra-Low Bitrate Image Compression
- arxiv url: http://arxiv.org/abs/2606.01608v1
- Date: Mon, 01 Jun 2026 02:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.889344
- Title: Exploiting Semantic and Pixel Representations for Ultra-Low Bitrate Image Compression
- Title(参考訳): 超低ビットレート画像圧縮のための爆発的意味表現と画素表現
- Authors: Hao Wei, Yanhui Zhou, Chenyang Ge, Saeed Anwar, Ajmal Mian,
- Abstract要約: SPRDiffは、意味表現とピクセル表現の両方を完全に活用する拡散ベースの圧縮手法である。
我々は,事前学習された歪み指向および意味指向エンコーダから高忠実度特徴を利用する三重エンコーダアーキテクチャを開発した。
ベンチマークデータセットを用いた実験により,本手法は速度-歪-知覚トレードオフにおいて最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 46.54433210034761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing extreme compression methods fail to achieve an optimal rate-distortion-perception trade-off, as they typically prioritize perceptual fidelity and visual realism over pixel-level accuracy. Consequently, the resulting reconstructions often deviate noticeably from the originals. Ultra-low bitrate image compression is therefore crucial-not only for producing extremely compact representations but also for ensuring that reconstructed images remain semantically coherent and faithful to the source at the pixel level. To this end, we propose SPRDiff, a diffusion-based compression method that fully leverages both semantic and pixel representations, thereby enhancing reconstruction fidelity under ultra-low bitrate constraints. Specifically, we develop a triple-encoder architecture that utilizes high-fidelity features from the pretrained distortion-oriented and semantic-oriented encoders to compensate for the limited representations extracted by the frozen VAE encoder, thereby improving latent compression and entropy modeling. To further enhance the reconstruction fidelity of diffusion models, we introduce a distortion-aware reconstruction module with dual feature extraction. This module not only generates a coarse reconstruction that preserves the main structures, but also provides practical and accurate semantic- and pixel-level conditional signals to guide the diffusion model. Extensive experiments on benchmark datasets demonstrate that our method outperforms state-of-the-art approaches in the rate-distortion-perception tradeoff at extremely low bitrates (below 0.03 bpp), effectively preserving both perceptual quality and pixel-wise fidelity in the reconstructed images. We will release the source code and trained models at https://github.com/cshw2021/SPRDiff.
- Abstract(参考訳): 既存の極端な圧縮手法の多くは、ピクセルレベルの精度よりも知覚の忠実さと視覚的リアリズムを優先するため、最適な速度歪み知覚トレードオフを達成することができない。
結果として、結果として生じた再建は、しばしば原本から著しく逸脱する。
したがって、超低ビットレート画像圧縮は、非常にコンパクトな表現を生成するだけでなく、再構成された画像が画素レベルのソースに対して意味的に一貫性があり忠実であることを保証するためにも重要である。
そこで本研究では,SPRDiffを提案する。SPRDiffは,セマンティック表現と画素表現の両方をフル活用し,超低ビットレート制約下での再構成忠実度を向上する。
具体的には、予め訓練された歪み指向および意味指向エンコーダからの高忠実度特徴を利用して、凍結されたVAEエンコーダによって抽出された限られた表現を補償し、潜時圧縮とエントロピーモデリングを改善する三重エンコーダアーキテクチャを開発する。
拡散モデルの再現精度をさらに高めるために,二重特徴抽出を用いた歪み認識再構成モジュールを導入する。
このモジュールは、主構造を保存する粗い再構成を生成するだけでなく、拡散モデルを導くための実用的で正確なセマンティックおよびピクセルレベルの条件信号も提供する。
提案手法は,極低ビットレート(0.03bpp以下)でのレート・ディストレーション・パーセプション・トレードオフにおける最先端の手法よりも優れており,再構成画像の知覚品質と画素ワイド忠実性の両方を効果的に維持できることを示す。
ソースコードとトレーニングされたモデルをhttps://github.com/cshw2021/SPRDiff.comでリリースします。
関連論文リスト
- Faithful Extreme Image Rescaling with Learnable Reversible Transformation and Semantic Priors [46.54433210034761]
FaithEIRは、極端なイメージ再スケーリングのための拡散ベースのフレームワークである。
特異値分解にインスパイアされ、学習可能な可逆変換を開発する。
量子化による情報損失を補うために,前もって適応的な詳細情報を提案する。
論文 参考訳(メタデータ) (2026-05-01T12:19:40Z) - SODiff: Semantic-Oriented Diffusion Model for JPEG Compression Artifacts Removal [50.90827365790281]
SODiffはJPEGアーティファクト削除のためのセマンティック指向のワンステップ拡散モデルである。
我々の中核的な考え方は、効果的な復元ヒンジは、事前訓練された拡散モデルに対する意味指向的なガイダンスを提供することである。
SAIPEは、低品質(LQ)画像からリッチな特徴を抽出し、テキストエンコーダとセマンティックに整合した埋め込み空間に投影する。
論文 参考訳(メタデータ) (2025-08-10T13:48:07Z) - Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。
CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文 参考訳(メタデータ) (2025-05-19T14:13:14Z) - Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。
残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。
最先端拡散法に比べて客観的・主観的性能に優れる。
論文 参考訳(メタデータ) (2025-05-13T06:51:23Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Leveraging Diffusion Knowledge for Generative Image Compression with Fractal Frequency-Aware Band Learning [16.077768397480902]
生成的画像圧縮アプローチは、シャープな再構築ではなく、詳細で現実的な画像を生成する。
拡散知識を取り入れた新しい深層学習に基づく画像圧縮手法を提案する。
提案手法は, 従来よりも低歪みで, 高いリアリズム, より優れたリアリズムの歪みを実現する。
論文 参考訳(メタデータ) (2025-03-14T11:41:33Z) - Controllable Distortion-Perception Tradeoff Through Latent Diffusion for Neural Image Compression [30.293252608423742]
ニューラル画像圧縮は、レート、歪み、知覚の間で難しいトレードオフに直面していることが多い。
固定されたニューラルイメージの両面を同時に扱う新しいアプローチを提案する。
1dB以上のPSNRを犠牲にすることなくLPIPS-BDRateを150%以上改善できる。
論文 参考訳(メタデータ) (2024-12-16T02:09:32Z) - Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。