論文の概要: Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.11157v1
- Date: Sun, 17 Mar 2024 09:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:15:50.881668
- Title: Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model
- Title(参考訳): 拡散モデルに基づくユニバーサル画像復元のための選択時間ガラスマッピング
- Authors: Dian Zheng, Xiao-Ming Wu, Shuzhou Yang, Jian Zhang, Jian-Fang Hu, Wei-Shi Zheng,
- Abstract要約: そこで我々は拡散モデルDiffUIRに基づく高度な時間ガラスマッピング戦略を提案する。
5つの画像復元タスク、22のベンチマーク、ゼロショットの一般化設定で最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 36.57703763466984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal image restoration is a practical and potential computer vision task for real-world applications. The main challenge of this task is handling the different degradation distributions at once. Existing methods mainly utilize task-specific conditions (e.g., prompt) to guide the model to learn different distributions separately, named multi-partite mapping. However, it is not suitable for universal model learning as it ignores the shared information between different tasks. In this work, we propose an advanced selective hourglass mapping strategy based on diffusion model, termed DiffUIR. Two novel considerations make our DiffUIR non-trivial. Firstly, we equip the model with strong condition guidance to obtain accurate generation direction of diffusion model (selective). More importantly, DiffUIR integrates a flexible shared distribution term (SDT) into the diffusion algorithm elegantly and naturally, which gradually maps different distributions into a shared one. In the reverse process, combined with SDT and strong condition guidance, DiffUIR iteratively guides the shared distribution to the task-specific distribution with high image quality (hourglass). Without bells and whistles, by only modifying the mapping strategy, we achieve state-of-the-art performance on five image restoration tasks, 22 benchmarks in the universal setting and zero-shot generalization setting. Surprisingly, by only using a lightweight model (only 0.89M), we could achieve outstanding performance. The source code and pre-trained models are available at https://github.com/iSEE-Laboratory/DiffUIR
- Abstract(参考訳): ユニバーサルイメージ復元は、現実のアプリケーションのための実用的で潜在的なコンピュータビジョンタスクである。
このタスクの主な課題は、異なる分解分布を一度に扱うことです。
既存の手法は主にタスク固有の条件(例えばプロンプト)を利用して、モデルに異なる分布を個別に学習させる。
しかし、異なるタスク間の共有情報を無視するため、普遍的なモデル学習には適さない。
本研究ではDiffUIRと呼ばれる拡散モデルに基づく高度な時間ガラスマッピング戦略を提案する。
2つの新しい考慮事項は、DiffUIRを非自明なものにします。
まず,拡散モデルの正確な生成方向(選択性)を得るために,強い条件ガイダンスを付与する。
さらに、DiffUIRはフレキシブルな共有分布項(SDT)をエレガントかつ自然に拡散アルゴリズムに統合し、異なる分布を徐々に共有分布にマッピングする。
逆処理では、SDTと強い条件ガイダンスを組み合わせることで、DiffUIRは共有分布を高画質(時間ガラス)でタスク固有分布に反復的に誘導する。
ベルとホイッスルなしでは、マッピング戦略を変更するだけで、5つの画像復元タスク、22のベンチマーク、ゼロショットの一般化設定で最先端のパフォーマンスを達成できる。
驚くべきことに、軽量モデル(わずか0.89M)のみを使用することで、優れたパフォーマンスを実現できた。
ソースコードと事前トレーニングされたモデルはhttps://github.com/iSEE-Laboratory/DiffUIRで公開されている。
関連論文リスト
- OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。
OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-08T06:14:37Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - ZoDi: Zero-Shot Domain Adaptation with Diffusion-Based Image Transfer [13.956618446530559]
本稿では,ZoDiと呼ばれる拡散モデルに基づくゼロショット領域適応手法を提案する。
まず,原画像の領域を対象領域に転送することで,対象画像の合成にオフ・ザ・シェルフ拡散モデルを用いる。
次に、元の表現でソース画像と合成画像の両方を用いてモデルを訓練し、ドメイン・ロバスト表現を学習する。
論文 参考訳(メタデータ) (2024-03-20T14:58:09Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale [36.590918776922905]
本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。
統一的な視点に触発されたUniDiffuserは、元の拡散モデルに最小限の変更を加えながら、全ての分布を同時に学習する。
論文 参考訳(メタデータ) (2023-03-12T03:38:39Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。