論文の概要: Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and
Personalized Stylization
- arxiv url: http://arxiv.org/abs/2308.14469v2
- Date: Thu, 7 Sep 2023 02:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 16:19:24.805290
- Title: Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and
Personalized Stylization
- Title(参考訳): 画像の高分解能化と個人化のための画素認識安定拡散
- Authors: Tao Yang, Peiran Ren, Xuansong Xie, Lei Zhang
- Abstract要約: リアル画像超解像(Real-ISR)は、低品質の入力から知覚的にリアルな画像の詳細を再現することを目的としている。
最近開発された安定拡散モデルにより、事前学習された強い画像を持つReal-ISRの潜在的な解が得られる。
本稿では,ロバストなReal-ISRとパーソナライズされたスタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。
- 参考スコア(独自算出の注目度): 27.277385310878568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic image super-resolution (Real-ISR) aims to reproduce perceptually
realistic image details from a low-quality input. The commonly used adversarial
training based Real-ISR methods often introduce unnatural visual artifacts and
fail to generate realistic textures for natural scene images. The recently
developed generative stable diffusion models provide a potential solution to
Real-ISR with pre-learned strong image priors. However, the existing methods
along this line either fail to keep faithful pixel-wise image structures or
resort to extra skipped connections to reproduce details, which requires
additional training in image space and limits their extension to other related
tasks in latent space such as image stylization. In this work, we propose a
pixel-aware stable diffusion (PASD) network to achieve robust Real-ISR as well
as personalized stylization. In specific, a pixel-aware cross attention module
is introduced to enable diffusion models perceiving image local structures in
pixel-wise level, while a degradation removal module is used to extract
degradation insensitive features to guide the diffusion process together with
image high level information. By simply replacing the base diffusion model with
a personalized one, our method can generate diverse stylized images without the
need to collect pairwise training data. PASD can be easily integrated into
existing diffusion models such as Stable Diffusion. Experiments on Real-ISR and
personalized stylization demonstrate the effectiveness of our proposed
approach. The source code and models can be found at
\url{https://github.com/yangxy/PASD}.
- Abstract(参考訳): リアル画像超解像(Real-ISR)は、低品質の入力から知覚的にリアルな画像の詳細を再現することを目的としている。
一般的に用いられる対向訓練に基づくReal-ISR法は、不自然な視覚的アーティファクトを導入し、自然なシーン画像の現実的なテクスチャを生成するのに失敗することが多い。
最近開発された生成的安定拡散モデルは、事前学習された強い画像プリエントを持つ実isrの潜在的な解決策を提供する。
しかし、この線に沿った既存の手法は、忠実なピクセル単位での画像構造を維持するのに失敗するか、詳細を再現するために余分にスキップされた接続に頼るかのどちらかであり、画像空間における追加のトレーニングを必要とし、画像スタイライゼーションのような潜在空間における他の関連タスクへの拡張を制限する。
本研究では,ロバストなReal-ISRとパーソナライズされたスタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。
具体的には、画像局所構造を画素単位で知覚する拡散モデルを可能にするために、画素対応クロスアテンションモジュールを導入し、劣化除去モジュールを用いて劣化不感な特徴を抽出し、画像高レベル情報とともに拡散過程を導出する。
ベース拡散モデルをパーソナライズしたモデルに置き換えるだけで,ペアワイズトレーニングデータの収集を必要とせず,多様なスタイライゼーション画像を生成することができる。
PASDは、安定拡散のような既存の拡散モデルに容易に統合できる。
実isrとパーソナライズされたスタイライゼーション実験は,提案手法の有効性を示す。
ソースコードとモデルは \url{https://github.com/yangxy/PASD} で見ることができる。
関連論文リスト
- Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models [73.34674816016211]
Edify Imageは、ピクセル完全精度でフォトリアリスティックな画像コンテンツを生成することができる拡散モデルのファミリーである。
Edify Imageはテキスト・ツー・イメージ合成、4Kアップサンプリング、コントロールネット、360 HDRパノラマ生成、画像カスタマイズのための微調整など幅広いアプリケーションをサポートしている。
論文 参考訳(メタデータ) (2024-11-11T16:58:31Z) - Towards Effective User Attribution for Latent Diffusion Models via Watermark-Informed Blending [54.26862913139299]
我々は、ウォーターマークインフォームドブレンディング(TEAWIB)による潜伏拡散モデルに対する効果的なユーザ属性に向けた新しいフレームワークを提案する。
TEAWIBは、ユーザ固有の透かしを生成モデルにシームレスに統合する、ユニークな準備可能な構成アプローチを取り入れている。
TEAWIBの有効性を検証し、知覚的品質と帰属精度で最先端の性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-09-17T07:52:09Z) - One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。
OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文 参考訳(メタデータ) (2023-04-17T14:06:49Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Recursive Self-Improvement for Camera Image and Signal Processing
Pipeline [6.318974730864278]
現在のカメラ画像と信号処理パイプライン(ISP)は、画像全体に一様に適用される単一のフィルタを適用する傾向がある。
これは、ほとんどの取得したカメラ画像が空間的に異質なアーティファクトを持っているにもかかわらずである。
学習された潜在部分空間で動作する深層強化学習モデルを提案する。
論文 参考訳(メタデータ) (2021-11-15T02:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。