論文の概要: Guided Image Synthesis via Initial Image Editing in Diffusion Model
- arxiv url: http://arxiv.org/abs/2305.03382v3
- Date: Wed, 09 Oct 2024 03:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:57.845394
- Title: Guided Image Synthesis via Initial Image Editing in Diffusion Model
- Title(参考訳): 拡散モデルにおける初期画像編集によるガイド画像合成
- Authors: Jiafeng Mao, Xueting Wang, Kiyoharu Aizawa,
- Abstract要約: 拡散モデルでは、純粋なガウスノイズ画像から高品質な画像を生成することができる。
生成した画像を制御するために初期雑音を操作する新しい方向を提案する。
その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。
- 参考スコア(独自算出の注目度): 30.622943615086584
- License:
- Abstract: Diffusion models have the ability to generate high quality images by denoising pure Gaussian noise images. While previous research has primarily focused on improving the control of image generation through adjusting the denoising process, we propose a novel direction of manipulating the initial noise to control the generated image. Through experiments on stable diffusion, we show that blocks of pixels in the initial latent images have a preference for generating specific content, and that modifying these blocks can significantly influence the generated image. In particular, we show that modifying a part of the initial image affects the corresponding region of the generated image while leaving other regions unaffected, which is useful for repainting tasks. Furthermore, we find that the generation preferences of pixel blocks are primarily determined by their values, rather than their position. By moving pixel blocks with a tendency to generate user-desired content to user-specified regions, our approach achieves state-of-the-art performance in layout-to-image generation. Our results highlight the flexibility and power of initial image manipulation in controlling the generated image. Project Page: https://ut-mao.github.io/swap.github.io/
- Abstract(参考訳): 拡散モデルでは、純ガウスノイズ画像から高品質な画像を生成することができる。
従来の研究では、デノナイジングプロセスの調整による画像生成の制御の改善に重点を置いてきたが、生成した画像を制御するために初期ノイズを操作する新しい方向を提案する。
安定拡散実験により、初期潜伏画像中の画素のブロックは特定のコンテンツを生成するのが好ましいことを示し、これらのブロックの変更が生成された画像に顕著に影響を及ぼすことを示した。
特に,初期画像の一部の変更が生成した画像の対応する領域に影響を及ぼし,他の領域に影響を与えないことを示す。
さらに,画素ブロックの生成嗜好は,その位置ではなく,その値によって決定されることがわかった。
ユーザ要求のコンテンツを生成する傾向のあるピクセルブロックをユーザ指定領域に移動させることで,レイアウト・画像生成における最先端の性能を実現する。
その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。
Project Page: https://ut-mao.github.io/swap.github.io/
関連論文リスト
- Beyond Image Prior: Embedding Noise Prior into Conditional Denoising Transformer [17.430622649002427]
既存の学習ベースの推論手法は、大規模なデータセットからイメージを一般化するためにモデルを訓練するのが一般的である。
本稿では,ノイズと画像の先行部分の分離を区別することによる,難読化問題に対する新たな視点を提案する。
本稿では,1つの生雑音画像から直接先行する雑音を正確に推定する局所雑音優先推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-12T08:43:11Z) - Tuning-Free Noise Rectification for High Fidelity Image-to-Video
Generation [23.81997037880116]
イメージ・ツー・ビデオ(I2V)生成タスクは常に、オープンドメインで高い忠実さを維持することに苦しむ。
いくつかの最近のI2Vフレームワークは、オープンドメインイメージの動的コンテンツを生成できるが、忠実さを維持できない。
本稿では,主流映像拡散モデルに適用可能な効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T09:57:47Z) - The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization [30.622943615086584]
ランダムなガウス雑音像を復調する際の抽選券仮説を定式化する。
優勝チケットは独立して特定のコンテンツにデノベートされる傾向がある。
我々は、既知の当選チケットから初期ノイズを生成する意味駆動型初期画像構築を実装した。
論文 参考訳(メタデータ) (2023-12-13T03:31:19Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [63.54342601757723]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。