論文の概要: Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization
- arxiv url: http://arxiv.org/abs/2308.14469v4
- Date: Tue, 9 Jul 2024 14:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:31:04.064614
- Title: Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization
- Title(参考訳): 画像の高分解能化とスチル化のための画素認識安定拡散
- Authors: Tao Yang, Rongyuan Wu, Peiran Ren, Xuansong Xie, Lei Zhang,
- Abstract要約: 本稿では,高機能なReal-ISRとパーソナライズされた画像スタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。
画素単位の画像局所構造を知覚する拡散モデルを実現するために、画素対応クロスアテンションモジュールを導入する。
補正可能なノイズスケジュールを導入し、画像復元結果をさらに改善する。
- 参考スコア(独自算出の注目度): 23.723573179119228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated impressive performance in various image generation, editing, enhancement and translation tasks. In particular, the pre-trained text-to-image stable diffusion models provide a potential solution to the challenging realistic image super-resolution (Real-ISR) and image stylization problems with their strong generative priors. However, the existing methods along this line often fail to keep faithful pixel-wise image structures. If extra skip connections between the encoder and the decoder of a VAE are used to reproduce details, additional training in image space will be required, limiting the application to tasks in latent space such as image stylization. In this work, we propose a pixel-aware stable diffusion (PASD) network to achieve robust Real-ISR and personalized image stylization. Specifically, a pixel-aware cross attention module is introduced to enable diffusion models perceiving image local structures in pixel-wise level, while a degradation removal module is used to extract degradation insensitive features to guide the diffusion process together with image high level information. An adjustable noise schedule is introduced to further improve the image restoration results. By simply replacing the base diffusion model with a stylized one, PASD can generate diverse stylized images without collecting pairwise training data, and by shifting the base model with an aesthetic one, PASD can bring old photos back to life. Extensive experiments in a variety of image enhancement and stylization tasks demonstrate the effectiveness of our proposed PASD approach. Our source codes are available at \url{https://github.com/yangxy/PASD/}.
- Abstract(参考訳): 拡散モデルは様々な画像生成、編集、拡張、翻訳タスクにおいて顕著な性能を示した。
特に、事前訓練されたテキスト・ツー・イメージの安定拡散モデルは、困難な現実的な超解像(Real-ISR)と画像スタイリング問題に対する潜在的な解決策となる。
しかし、この線に沿った既存の手法は、しばしば忠実なピクセル画像構造を維持するのに失敗する。
エンコーダとVAEのデコーダの間の余分なスキップ接続が詳細を再現するために使用される場合、画像空間における追加のトレーニングが必要となり、画像スタイリングのような潜在空間のタスクに制限が課される。
本研究では,高機能なReal-ISRとパーソナライズされた画像スタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。
具体的には、画像局所構造を画素単位で知覚する拡散モデルを可能にするために、画素対応クロスアテンションモジュールを導入し、劣化除去モジュールを用いて劣化不感な特徴を抽出し、画像高レベル情報とともに拡散過程を導出する。
補正可能なノイズスケジュールを導入し、画像復元結果をさらに改善する。
ベース拡散モデルをスタイリングされたものに置き換えることによって、PASDはペアのトレーニングデータを収集することなく多様なスタイリングされた画像を生成することができ、ベースモデルを美的なものにシフトさせることで、古い写真を生き返らせることができる。
画像強調タスクとスタイリングタスクの多種多様な実験により,提案手法の有効性が示された。
ソースコードは \url{https://github.com/yangxy/PASD/} で公開しています。
関連論文リスト
- Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - One-Step Effective Diffusion Network for Real-World Image Super-Resolution [11.326598938246558]
本稿では,Real-ISR問題に対する1ステップの効果的な拡散ネットワーク,すなわちOSEDiffを提案する。
我々は,KL分散正則化を行うために,潜時空間における変分点蒸留を適用した。
実験の結果,OSEDiffは,客観的指標と主観的評価の両方の観点から,同等あるいはさらに優れたリアルISR結果が得られることが示された。
論文 参考訳(メタデータ) (2024-06-12T13:10:31Z) - PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、ユーザカスタマイズ命令を効果的に認識し実行するモデルの開発を妨げている。
PromptFixは、拡散モデルが人間の指示に従って様々な画像処理タスクを実行できるフレームワークである。
論文 参考訳(メタデータ) (2024-05-27T03:13:28Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [63.54342601757723]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文 参考訳(メタデータ) (2023-04-17T14:06:49Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Recursive Self-Improvement for Camera Image and Signal Processing
Pipeline [6.318974730864278]
現在のカメラ画像と信号処理パイプライン(ISP)は、画像全体に一様に適用される単一のフィルタを適用する傾向がある。
これは、ほとんどの取得したカメラ画像が空間的に異質なアーティファクトを持っているにもかかわらずである。
学習された潜在部分空間で動作する深層強化学習モデルを提案する。
論文 参考訳(メタデータ) (2021-11-15T02:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。