論文の概要: Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and
Personalized Stylization
- arxiv url: http://arxiv.org/abs/2308.14469v1
- Date: Mon, 28 Aug 2023 10:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:34:03.102943
- Title: Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and
Personalized Stylization
- Title(参考訳): 画像の高分解能化と個人化のための画素認識安定拡散
- Authors: Tao Yang, Peiran Ren, Xuansong Xie, Lei Zhang
- Abstract要約: リアル画像超解像(Real-ISR)は、低品質の入力から知覚的にリアルな画像の詳細を再現することを目的としている。
最近開発された安定拡散モデルにより、事前学習された強い画像を持つReal-ISRの潜在的な解が得られる。
本稿では,ロバストなReal-ISRとパーソナライズされたスタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。
- 参考スコア(独自算出の注目度): 27.277385310878568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic image super-resolution (Real-ISR) aims to reproduce perceptually
realistic image details from a low-quality input. The commonly used adversarial
training based Real-ISR methods often introduce unnatural visual artifacts and
fail to generate realistic textures for natural scene images. The recently
developed generative stable diffusion models provide a potential solution to
Real-ISR with pre-learned strong image priors. However, the existing methods
along this line either fail to keep faithful pixel-wise image structures or
resort to extra skipped connections to reproduce details, which requires
additional training in image space and limits their extension to other related
tasks in latent space such as image stylization. In this work, we propose a
pixel-aware stable diffusion (PASD) network to achieve robust Real-ISR as well
as personalized stylization. In specific, a pixel-aware cross attention module
is introduced to enable diffusion models perceiving image local structures in
pixel-wise level, while a degradation removal module is used to extract
degradation insensitive features to guide the diffusion process together with
image high level information. By simply replacing the base diffusion model with
a personalized one, our method can generate diverse stylized images without the
need to collect pairwise training data. PASD can be easily integrated into
existing diffusion models such as Stable Diffusion. Experiments on Real-ISR and
personalized stylization demonstrate the effectiveness of our proposed
approach. The source code and models can be found at
\url{https://github.com/yangxy/PASD}.
- Abstract(参考訳): リアル画像超解像(Real-ISR)は、低品質の入力から知覚的にリアルな画像の詳細を再現することを目的としている。
一般的に用いられる対向訓練に基づくReal-ISR法は、不自然な視覚的アーティファクトを導入し、自然なシーン画像の現実的なテクスチャを生成するのに失敗することが多い。
最近開発された生成的安定拡散モデルは、事前学習された強い画像プリエントを持つ実isrの潜在的な解決策を提供する。
しかし、この線に沿った既存の手法は、忠実なピクセル単位での画像構造を維持するのに失敗するか、詳細を再現するために余分にスキップされた接続に頼るかのどちらかであり、画像空間における追加のトレーニングを必要とし、画像スタイライゼーションのような潜在空間における他の関連タスクへの拡張を制限する。
本研究では,ロバストなReal-ISRとパーソナライズされたスタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。
具体的には、画像局所構造を画素単位で知覚する拡散モデルを可能にするために、画素対応クロスアテンションモジュールを導入し、劣化除去モジュールを用いて劣化不感な特徴を抽出し、画像高レベル情報とともに拡散過程を導出する。
ベース拡散モデルをパーソナライズしたモデルに置き換えるだけで,ペアワイズトレーニングデータの収集を必要とせず,多様なスタイライゼーション画像を生成することができる。
PASDは、安定拡散のような既存の拡散モデルに容易に統合できる。
実isrとパーソナライズされたスタイライゼーション実験は,提案手法の有効性を示す。
ソースコードとモデルは \url{https://github.com/yangxy/PASD} で見ることができる。
関連論文リスト
- BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - One-Shot Structure-Aware Stylized Image Synthesis [7.418475280387784]
OSASISは構造保存に堅牢な新しい一発スタイリング手法である。
我々は、OSASISが画像の構造から意味を効果的に切り離し、与えられた入力に実装されたコンテンツやスタイルのレベルを制御することができることを示す。
以上の結果から,OSASISは他のスタイリング手法,特にトレーニング中にほとんど遭遇しなかった入力画像よりも優れていた。
論文 参考訳(メタデータ) (2024-02-27T07:42:55Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文 参考訳(メタデータ) (2023-04-17T14:06:49Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Learning Degradation Representations for Image Deblurring [37.80709422920307]
ぼやけた画像の空間適応的劣化表現を学習するための枠組みを提案する。
劣化表現の表現性を改善するために、新しい共同画像再生・復調学習プロセスを提案する。
GoProとRealBlurのデータセットの実験では、学習した劣化表現を用いたデブロアリングフレームワークが最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-08-10T09:53:16Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。