論文の概要: Generative Image Coding with Diffusion Prior
- arxiv url: http://arxiv.org/abs/2509.13768v1
- Date: Wed, 17 Sep 2025 07:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.761095
- Title: Generative Image Coding with Diffusion Prior
- Title(参考訳): 拡散前の生成画像符号化
- Authors: Jianhui Chang,
- Abstract要約: 本稿では,低速圧縮性能向上のため,拡散前処理を利用した新しい生成符号化フレームワークを提案する。
提案手法は,H.266/VVCよりも圧縮性能を最大79%向上させるとともに,より広いコンテンツタイプに適応しつつ,AI生成コンテンツに対する効率的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 3.127638190046881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As generative technologies advance, visual content has evolved into a complex mix of natural and AI-generated images, driving the need for more efficient coding techniques that prioritize perceptual quality. Traditional codecs and learned methods struggle to maintain subjective quality at high compression ratios, while existing generative approaches face challenges in visual fidelity and generalization. To this end, we propose a novel generative coding framework leveraging diffusion priors to enhance compression performance at low bitrates. Our approach employs a pre-optimized encoder to generate generalized compressed-domain representations, integrated with the pretrained model's internal features via a lightweight adapter and an attentive fusion module. This framework effectively leverages existing pretrained diffusion models and enables efficient adaptation to different pretrained models for new requirements with minimal retraining costs. We also introduce a distribution renormalization method to further enhance reconstruction fidelity. Extensive experiments show that our method (1) outperforms existing methods in visual fidelity across low bitrates, (2) improves compression performance by up to 79% over H.266/VVC, and (3) offers an efficient solution for AI-generated content while being adaptable to broader content types.
- Abstract(参考訳): 生成技術が進歩するにつれて、視覚コンテンツは自然とAIが生成する複雑な画像の混合へと進化し、知覚品質を優先するより効率的なコーディング技術の必要性が高まっている。
従来のコーデックや学習方法は高い圧縮比で主観的品質を維持するのに苦労するが、既存の生成的アプローチは視覚的忠実さと一般化の課題に直面している。
そこで本研究では,低ビットレートでの圧縮性能向上のために,拡散先行を利用した新しい生成符号化フレームワークを提案する。
提案手法では,事前最適化エンコーダを用いて一般化された圧縮ドメイン表現を生成し,軽量アダプタと減衰融合モジュールを介して事前訓練されたモデルの内部特徴と統合する。
このフレームワークは、既存の事前学習拡散モデルを効果的に活用し、再学習コストを最小限に抑えた新しい要求に対して、異なる事前学習モデルへの効率的な適応を可能にする。
また,再構成忠実度をさらに向上する分布再正規化手法も導入する。
本手法は,(1)低ビットレートでの視覚的忠実度を向上し,(2)H.266/VVCよりも最大79%圧縮性能を向上し,(3)より広範なコンテンツタイプに適応しつつ,AI生成コンテンツに対する効率的なソリューションを提供する。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。