論文の概要: One-Step Diffusion-Based Image Compression with Semantic Distillation
- arxiv url: http://arxiv.org/abs/2505.16687v1
- Date: Thu, 22 May 2025 13:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.340116
- Title: One-Step Diffusion-Based Image Compression with Semantic Distillation
- Title(参考訳): セマンティック蒸留による1ステップ拡散画像圧縮
- Authors: Naifu Xue, Zhaoyang Jia, Jiahao Li, Bin Li, Yuan Zhang, Yan Lu,
- Abstract要約: OneDCは1ステップ拡散に基づく生成画像コーデックである。
OneDCは、ワンステップ生成でも知覚品質を達成する。
- 参考スコア(独自算出の注目度): 25.910952778218146
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While recent diffusion-based generative image codecs have shown impressive performance, their iterative sampling process introduces unpleasing latency. In this work, we revisit the design of a diffusion-based codec and argue that multi-step sampling is not necessary for generative compression. Based on this insight, we propose OneDC, a One-step Diffusion-based generative image Codec -- that integrates a latent compression module with a one-step diffusion generator. Recognizing the critical role of semantic guidance in one-step diffusion, we propose using the hyperprior as a semantic signal, overcoming the limitations of text prompts in representing complex visual content. To further enhance the semantic capability of the hyperprior, we introduce a semantic distillation mechanism that transfers knowledge from a pretrained generative tokenizer to the hyperprior codec. Additionally, we adopt a hybrid pixel- and latent-domain optimization to jointly enhance both reconstruction fidelity and perceptual realism. Extensive experiments demonstrate that OneDC achieves SOTA perceptual quality even with one-step generation, offering over 40% bitrate reduction and 20x faster decoding compared to prior multi-step diffusion-based codecs. Code will be released later.
- Abstract(参考訳): 近年,拡散型生成画像コーデックは顕著な性能を示したが,反復的なサンプリング処理により遅延が減少する。
本研究では,拡散型コーデックの設計を再考し,生成圧縮には多段階サンプリングは必要ないと主張している。
この知見に基づいて、1ステップ拡散に基づく生成画像コーデックであるOneDCを提案し、遅延圧縮モジュールと1ステップ拡散生成器を統合する。
一段階拡散における意味指導の重要な役割を認識し、複雑な視覚的内容を表現する際のテキストプロンプトの限界を克服する意味信号としてハイパープリンダーを使うことを提案する。
ハイパープライアのセマンティック機能を強化するために,事前学習された生成トークン化装置からハイパープライアコーデックに知識を伝達するセマンティック蒸留機構を導入する。
さらに、再構成忠実度と知覚現実性の両方を両立させるために、ハイブリッドピクセルドメインと潜時ドメインの最適化を採用する。
大規模な実験により、OneDCは1ステップ生成でもSOTAの知覚品質を達成し、従来の多ステップ拡散ベースコーデックに比べて40%以上のビットレートの削減と20倍高速な復号を実現している。
コードは後でリリースされる。
関連論文リスト
- OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [52.65036099944483]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
既存の手法のほとんどは、ランダムノイズから反復的にデノイングすることで、イメージを再構成する。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。
残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。
最先端拡散法に比べて客観的・主観的性能に優れる。
論文 参考訳(メタデータ) (2025-05-13T06:51:23Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。