論文の概要: Toward Scalable Image Feature Compression: A Content-Adaptive and Diffusion-Based Approach
- arxiv url: http://arxiv.org/abs/2410.06149v1
- Date: Tue, 8 Oct 2024 15:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 11:00:50.252787
- Title: Toward Scalable Image Feature Compression: A Content-Adaptive and Diffusion-Based Approach
- Title(参考訳): スケーラブルな画像特徴圧縮に向けて:コンテンツ適応型および拡散型アプローチ
- Authors: Sha Guo, Zhuo Chen, Yang Zhao, Ning Zhang, Xiaotong Li, Lingyu Duan,
- Abstract要約: 本稿では,スケーラブルな画像圧縮のためのコンテンツ適応拡散モデルを提案する。
提案手法は拡散過程を通じて微細なテクスチャを符号化し,知覚品質を向上する。
画像再構成および下流マシンビジョンタスクにおいて,提案手法の有効性を示す実験を行った。
- 参考スコア(独自算出の注目度): 44.03561901593423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional image codecs emphasize signal fidelity and human perception, often at the expense of machine vision tasks. Deep learning methods have demonstrated promising coding performance by utilizing rich semantic embeddings optimized for both human and machine vision. However, these compact embeddings struggle to capture fine details such as contours and textures, resulting in imperfect reconstructions. Furthermore, existing learning-based codecs lack scalability. To address these limitations, this paper introduces a content-adaptive diffusion model for scalable image compression. The proposed method encodes fine textures through a diffusion process, enhancing perceptual quality while preserving essential features for machine vision tasks. The approach employs a Markov palette diffusion model combined with widely used feature extractors and image generators, enabling efficient data compression. By leveraging collaborative texture-semantic feature extraction and pseudo-label generation, the method accurately captures texture information. A content-adaptive Markov palette diffusion model is then applied to represent both low-level textures and high-level semantic content in a scalable manner. This framework offers flexible control over compression ratios by selecting intermediate diffusion states, eliminating the need for retraining deep learning models at different operating points. Extensive experiments demonstrate the effectiveness of the proposed framework in both image reconstruction and downstream machine vision tasks such as object detection, segmentation, and facial landmark detection, achieving superior perceptual quality compared to state-of-the-art methods.
- Abstract(参考訳): 伝統的な画像コーデックは、しばしば機械ビジョンのタスクを犠牲にして、信号の忠実さと人間の知覚を強調する。
ディープラーニング手法は、人間と機械の両方に最適化されたリッチなセマンティック埋め込みを利用することで、有望なコーディング性能を実証している。
しかし、これらのコンパクトな埋め込みは、輪郭やテクスチャのような細部を捉えるのに苦労し、不完全な再構築をもたらす。
さらに、既存の学習ベースのコーデックにはスケーラビリティがない。
これらの制約に対処するために,スケーラブルな画像圧縮のためのコンテンツ適応拡散モデルを提案する。
提案手法は, マシンビジョンタスクに不可欠な特徴を保ちながら, 知覚品質を高めながら, 微細なテクスチャを拡散処理により符号化する。
このアプローチでは、マルコフパレット拡散モデルと、広く使われている特徴抽出器と画像生成器を組み合わせて、効率的なデータ圧縮を実現する。
協調的なテクスチャ・セマンティック特徴抽出と擬似ラベル生成を利用して、テクスチャ情報を正確にキャプチャする。
次に、コンテンツ適応型マルコフパレット拡散モデルを適用し、低レベルのテクスチャと高レベルのセマンティックコンテンツの両方をスケーラブルに表現する。
このフレームワークは、中間拡散状態を選択して圧縮比を柔軟に制御し、異なる操作点におけるディープラーニングモデルの再学習を不要にする。
画像再構成と,物体検出,セグメンテーション,顔のランドマーク検出などの下流マシンビジョンタスクにおいて,提案手法の有効性を実証し,最先端の手法と比較して知覚品質に優れることを示した。
関連論文リスト
- Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Lightweight Adaptive Feature De-drifting for Compressed Image
Classification [10.265991649449507]
高品質な画像で訓練された高レベルの視覚モデルは、圧縮された画像を扱う際に性能劣化に悩まされる。
ビジュアルアーティファクトを扱うために、さまざまな学習ベースのJPEGアーティファクト除去手法が提案されている。
本稿では,プレトレーニング済み画像分類モデルの性能向上を図るために,新しい軽量AFDモジュールを提案する。
論文 参考訳(メタデータ) (2024-01-03T13:03:44Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation [36.20575570779196]
拡散モデルの潜在空間に対して,細粒度から細粒度まで,低レベルから高レベルの特徴階層を利用する。
HDAEの階層的潜在空間は本質的に異なる抽象的な意味論のレベルを符号化し、より包括的な意味表現を提供する。
提案手法の有効性を実験的に検証し,画像再構成,スタイル混合,制御可能,ディテール保存,不整合な画像操作に応用した。
論文 参考訳(メタデータ) (2023-04-24T05:35:59Z) - DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior [0.22940141855172028]
本稿では,古典的反復法をディープラーニングアプリケーションに組み込んだ非盲検画像デコンボリューションモデルを提案する。
このアルゴリズムは、トレーニング可能な畳み込み層と統合され、復元された画像構造と詳細を強化する。
論文 参考訳(メタデータ) (2022-09-30T11:15:03Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Joint Learning of Deep Texture and High-Frequency Features for
Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。
セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。
原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文 参考訳(メタデータ) (2022-09-07T17:30:40Z) - Towards Analysis-friendly Face Representation with Scalable Feature and
Texture Compression [113.30411004622508]
普遍的で協調的な視覚情報表現は階層的な方法で実現できることを示す。
ディープニューラルネットワークの強力な生成能力に基づいて、基本特徴層と強化層の間のギャップは、特徴レベルのテクスチャ再構築によってさらに埋められる。
提案するフレームワークの効率を改善するために,ベース層ニューラルネットワークをマルチタスクでトレーニングする。
論文 参考訳(メタデータ) (2020-04-21T14:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。