論文の概要: Towards Facial Image Compression with Consistency Preserving Diffusion Prior
- arxiv url: http://arxiv.org/abs/2505.05870v1
- Date: Fri, 09 May 2025 08:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.2011
- Title: Towards Facial Image Compression with Consistency Preserving Diffusion Prior
- Title(参考訳): 拡散前保存型顔画像圧縮に向けて
- Authors: Yimin Zhou, Yichong Xia, Bin Chen, Baoyi An, Haoqian Wang, Zhi Wang, Yaowei Wang, Zikun Zhou,
- Abstract要約: 安定拡散前の顔画像圧縮(FaSDiff)を提案する。
FaSDiffは、エンドツーエンドのフレームワークに高周波感度圧縮機を使用し、微細な画像の詳細をキャプチャし、堅牢な視覚的プロンプトを生成する。
低周波の顔のセマンティクスを分解し、視覚的プロンプトとともに拡散を安定的に調節するハイブリッド低周波拡張モジュールを提案する。
- 参考スコア(独自算出の注目度): 41.29201202196887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread application of facial image data across various domains, the efficient storage and transmission of facial images has garnered significant attention. However, the existing learned face image compression methods often produce unsatisfactory reconstructed image quality at low bit rates. Simply adapting diffusion-based compression methods to facial compression tasks results in reconstructed images that perform poorly in downstream applications due to insufficient preservation of high-frequency information. To further explore the diffusion prior in facial image compression, we propose Facial Image Compression with a Stable Diffusion Prior (FaSDiff), a method that preserves consistency through frequency enhancement. FaSDiff employs a high-frequency-sensitive compressor in an end-to-end framework to capture fine image details and produce robust visual prompts. Additionally, we introduce a hybrid low-frequency enhancement module that disentangles low-frequency facial semantics and stably modulates the diffusion prior alongside visual prompts. The proposed modules allow FaSDiff to leverage diffusion priors for superior human visual perception while minimizing performance loss in machine vision due to semantic inconsistency. Extensive experiments show that FaSDiff outperforms state-of-the-art methods in balancing human visual quality and machine vision accuracy. The code will be released after the paper is accepted.
- Abstract(参考訳): 様々な領域にわたる顔画像データの普及により、顔画像の効率的な保存と送信が注目されている。
しかし、既存の学習顔画像圧縮法は、低ビットレートで不満足に再構成された画像品質を生成することが多い。
単純に拡散に基づく圧縮手法を顔の圧縮タスクに適用すると、高周波情報の保存が不十分なために下流のアプリケーションでは不十分な画像が再構成される。
顔画像の圧縮に先立つ拡散を更に探求するため,周波数強調による一貫性の維持方法である,安定拡散優先法 (FaSDiff) を用いた顔画像圧縮を提案する。
FaSDiffは、エンドツーエンドのフレームワークに高周波感度圧縮機を使用し、微細な画像の詳細をキャプチャし、堅牢な視覚的プロンプトを生成する。
さらに、低周波の顔のセマンティクスを分解し、視覚的プロンプトとともに拡散を安定的に調節するハイブリッド低周波拡張モジュールを導入する。
提案したモジュールは、意味的不整合によるマシンビジョンの性能損失を最小限に抑えつつ、FSDiffが人間の視覚知覚に優れた拡散先行を活用できるようにする。
大規模な実験により、FaSDiffは人間の視覚品質とマシンビジョンの精度のバランスをとる最先端の手法より優れていることが示された。
コードは論文が受理された後に公開される。
関連論文リスト
- Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - HFLIC: Human Friendly Perceptual Learned Image Compression with
Reinforced Transform [16.173583505483272]
現在の学習ベースの画像圧縮法は、人間に優しい圧縮を犠牲にし、長い復号時間を必要とすることが多い。
本稿では、既存の画像圧縮モデルのバックボーンネットワークとロス関数の強化を提案し、人間の知覚と効率の改善に焦点をあてる。
論文 参考訳(メタデータ) (2023-05-12T14:35:27Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - Analysis of the Effect of Low-Overhead Lossy Image Compression on the
Performance of Visual Crowd Counting for Smart City Applications [78.55896581882595]
画像圧縮技術は画像の品質を低下させ、精度を低下させる。
本稿では,低オーバヘッド損失画像圧縮法の適用が視覚的群集カウントの精度に与える影響を解析する。
論文 参考訳(メタデータ) (2022-07-20T19:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。