論文の概要: Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization
- arxiv url: http://arxiv.org/abs/2308.14469v3
- Date: Thu, 14 Mar 2024 14:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:52:50.013089
- Title: Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization
- Title(参考訳): 画像の高分解能化とスチル化のための画素認識安定拡散
- Authors: Tao Yang, Rongyuan Wu, Peiran Ren, Xuansong Xie, Lei Zhang,
- Abstract要約: 高速なリアルISRとパーソナライズされた画像スタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。
ベース拡散モデルをスタイリングされたものに置き換えることによって、PASDはペアのトレーニングデータを収集することなく、多様なスタイリングされた画像を生成することができる。
- 参考スコア(独自算出の注目度): 23.723573179119228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated impressive performance in various image generation, editing, enhancement and translation tasks. In particular, the pre-trained text-to-image stable diffusion models provide a potential solution to the challenging realistic image super-resolution (Real-ISR) and image stylization problems with their strong generative priors. However, the existing methods along this line often fail to keep faithful pixel-wise image structures. If extra skip connections are used to reproduce details, additional training in image space will be required, limiting the application to tasks in latent space such as image stylization. In this work, we propose a pixel-aware stable diffusion (PASD) network to achieve robust Real-ISR and personalized image stylization. Specifically, a pixel-aware cross attention module is introduced to enable diffusion models perceiving image local structures in pixel-wise level, while a degradation removal module is used to extract degradation insensitive features to guide the diffusion process together with image high level information. An adjustable noise schedule is introduced to further improve the image restoration results. By simply replacing the base diffusion model with a stylized one, PASD can generate diverse stylized images without collecting pairwise training data, and by shifting the base model with an aesthetic one, PASD can bring old photos back to life. Extensive experiments in a variety of image enhancement and stylization tasks demonstrate the effectiveness of our proposed PASD approach. Our source codes are available at \url{https://github.com/yangxy/PASD/}.
- Abstract(参考訳): 拡散モデルは様々な画像生成、編集、拡張、翻訳タスクにおいて顕著な性能を示した。
特に、事前訓練されたテキスト・ツー・イメージの安定拡散モデルは、困難な現実的な超解像(Real-ISR)と画像スタイリング問題に対する潜在的な解決策となる。
しかし、この線に沿った既存の手法は、しばしば忠実なピクセル画像構造を維持するのに失敗する。
詳細を再現するために余分なスキップ接続が使用される場合、イメージ空間における追加のトレーニングが必要となり、画像スタイリングのような遅延スペースのタスクにアプリケーションを制限される。
本研究では,高機能なReal-ISRとパーソナライズされた画像スタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。
具体的には、画像局所構造を画素単位で知覚する拡散モデルを可能にするために、画素対応クロスアテンションモジュールを導入し、劣化除去モジュールを用いて劣化不感な特徴を抽出し、画像高レベル情報とともに拡散過程を導出する。
補正可能なノイズスケジュールを導入し、画像復元結果をさらに改善する。
ベース拡散モデルをスタイリングされたものに置き換えることによって、PASDはペアのトレーニングデータを収集することなく多様なスタイリングされた画像を生成することができ、ベースモデルを美的なものにシフトさせることで、古い写真を生き返らせることができる。
画像強調タスクとスタイリングタスクの多種多様な実験により,提案手法の有効性が示された。
ソースコードは \url{https://github.com/yangxy/PASD/} で公開しています。
関連論文リスト
- Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models [73.34674816016211]
Edify Imageは、ピクセル完全精度でフォトリアリスティックな画像コンテンツを生成することができる拡散モデルのファミリーである。
Edify Imageはテキスト・ツー・イメージ合成、4Kアップサンプリング、コントロールネット、360 HDRパノラマ生成、画像カスタマイズのための微調整など幅広いアプリケーションをサポートしている。
論文 参考訳(メタデータ) (2024-11-11T16:58:31Z) - Towards Effective User Attribution for Latent Diffusion Models via Watermark-Informed Blending [54.26862913139299]
我々は、ウォーターマークインフォームドブレンディング(TEAWIB)による潜伏拡散モデルに対する効果的なユーザ属性に向けた新しいフレームワークを提案する。
TEAWIBは、ユーザ固有の透かしを生成モデルにシームレスに統合する、ユニークな準備可能な構成アプローチを取り入れている。
TEAWIBの有効性を検証し、知覚的品質と帰属精度で最先端の性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-09-17T07:52:09Z) - One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。
OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文 参考訳(メタデータ) (2023-04-17T14:06:49Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Recursive Self-Improvement for Camera Image and Signal Processing
Pipeline [6.318974730864278]
現在のカメラ画像と信号処理パイプライン(ISP)は、画像全体に一様に適用される単一のフィルタを適用する傾向がある。
これは、ほとんどの取得したカメラ画像が空間的に異質なアーティファクトを持っているにもかかわらずである。
学習された潜在部分空間で動作する深層強化学習モデルを提案する。
論文 参考訳(メタデータ) (2021-11-15T02:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。