論文の概要: Using diffusion model as constraint: Empower Image Restoration Network Training with Diffusion Model
- arxiv url: http://arxiv.org/abs/2406.19030v1
- Date: Thu, 27 Jun 2024 09:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:47:16.731320
- Title: Using diffusion model as constraint: Empower Image Restoration Network Training with Diffusion Model
- Title(参考訳): 拡散モデルを制約として利用する:拡散モデルを用いた画像復元ネットワークトレーニング
- Authors: Jiangtong Tan, Feng Zhao,
- Abstract要約: DiffLossは自然性指向でセマンティックな最適化メカニズムである。
自然画像生成のための拡散モデルの強力な分布カバレッジ機能を利用する。
本稿では,意味認識回復の可能性をさらに開放する意味認識損失を提案する。
- 参考スコア(独自算出の注目度): 4.8677910801584385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image restoration has made marvelous progress with the advent of deep learning. Previous methods usually rely on designing powerful network architecture to elevate performance, however, the natural visual effect of the restored results is limited by color and texture distortions. Besides the visual perceptual quality, the semantic perception recovery is an important but often overlooked perspective of restored image, which is crucial for the deployment in high-level tasks. In this paper, we propose a new perspective to resort these issues by introducing a naturalness-oriented and semantic-aware optimization mechanism, dubbed DiffLoss. Specifically, inspired by the powerful distribution coverage capability of the diffusion model for natural image generation, we exploit the Markov chain sampling property of diffusion model and project the restored results of existing networks into the sampling space. Besides, we reveal that the bottleneck feature of diffusion models, also dubbed h-space feature, is a natural high-level semantic space. We delve into this property and propose a semantic-aware loss to further unlock its potential of semantic perception recovery, which paves the way to connect image restoration task and downstream high-level recognition task. With these two strategies, the DiffLoss can endow existing restoration methods with both more natural and semantic-aware results. We verify the effectiveness of our method on substantial common image restoration tasks and benchmarks. Code will be available at https://github.com/JosephTiTan/DiffLoss.
- Abstract(参考訳): 画像復元は、ディープラーニングの出現によって驚くべき進歩を遂げた。
従来の手法は通常、性能を高めるために強力なネットワークアーキテクチャの設計に頼っていたが、復元された結果の自然な視覚効果は、色やテクスチャの歪みによって制限される。
視覚的知覚の質の他に、意味的知覚の回復は、高レベルのタスクの展開に不可欠である復元されたイメージの重要な視点であるが、見落とされがちである。
本稿では,DiffLossと呼ばれる自然性指向型セマンティック・アウェア・最適化機構を導入することで,これらの問題を解決するための新たな視点を提案する。
具体的には、自然画像生成のための拡散モデルの強力な分布カバレッジ能力に着想を得て、拡散モデルのマルコフ連鎖サンプリング特性を利用し、既存のネットワークの復元結果をサンプリング空間に投影する。
さらに,拡散モデルのボトルネック的特徴であるh-空間的特徴(h-space feature)が自然に高レベルな意味空間であることを明らかにする。
我々はこの特性を探索し、画像復元タスクと下流高レベル認識タスクを接続する方法を舗装する意味認識回復の可能性をさらに開放する意味認識損失を提案する。
これら2つの戦略により、DiffLossは、より自然かつセマンティックな結果の両方で、既存の復元方法を実現することができる。
本手法の有効性を,画像復元作業やベンチマークで検証する。
コードはhttps://github.com/JosephTiTan/DiffLoss.comで入手できる。
関連論文リスト
- Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
拡散先行型IQA(DP-IQA)と呼ばれる新しいIQA法を提案する。
トレーニング済みの安定拡散をバックボーンとして使用し、復調するU-Netから多レベル特徴を抽出し、それらをデコードして画質スコアを推定する。
上記のモデルの知識をCNNベースの学生モデルに抽出し、適用性を高めるためにパラメータを大幅に削減する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models [14.25759541950917]
この研究は、能動的視覚言語モデルと合成分解パイプラインを活用して、野生(ワイルドIR)における画像復元を学習する。
我々の基底拡散モデルは画像復元SDE(IR-SDE)である。
論文 参考訳(メタデータ) (2024-04-15T12:34:21Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - CasSR: Activating Image Power for Real-World Image Super-Resolution [24.152495730507823]
超解像のためのカスケード拡散法CasSRは、高精細でリアルな画像を生成するために設計された新しい方法である。
低解像度画像からの情報の抽出を最適化するカスケード制御可能な拡散モデルを開発した。
論文 参考訳(メタデータ) (2024-03-18T03:59:43Z) - Diffusion Model Based Visual Compensation Guidance and Visual Difference
Analysis for No-Reference Image Quality Assessment [82.13830107682232]
本稿では, 複雑な関係をモデル化する能力を示す, 最先端(SOTA)生成モデルを提案する。
生成した拡張画像とノイズを含む画像を利用する新しい拡散復元ネットワークを考案する。
2つの視覚評価枝は、得られた高レベル特徴情報を包括的に解析するように設計されている。
論文 参考訳(メタデータ) (2024-02-22T09:39:46Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - All-in-one Multi-degradation Image Restoration Network via Hierarchical
Degradation Representation [47.00239809958627]
我々は新しいオールインワン・マルチデグレーション画像復元ネットワーク(AMIRNet)を提案する。
AMIRNetは、クラスタリングによって木構造を段階的に構築することで、未知の劣化画像の劣化表現を学習する。
この木構造表現は、様々な歪みの一貫性と不一致を明示的に反映しており、画像復元の具体的な手がかりとなっている。
論文 参考訳(メタデータ) (2023-08-06T04:51:41Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。