論文の概要: Guided Image Synthesis via Initial Image Editing in Diffusion Model
- arxiv url: http://arxiv.org/abs/2305.03382v1
- Date: Fri, 5 May 2023 09:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 14:40:09.813871
- Title: Guided Image Synthesis via Initial Image Editing in Diffusion Model
- Title(参考訳): 拡散モデルにおける初期画像編集によるガイド画像合成
- Authors: Jiafeng Mao, Xueting Wang and Kiyoharu Aizawa
- Abstract要約: 拡散モデルでは、純粋なガウスノイズ画像から高品質な画像を生成することができる。
生成した画像を制御するために初期雑音を操作する新しい方向を提案する。
その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。
- 参考スコア(独自算出の注目度): 43.14135590548668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have the ability to generate high quality images by
denoising pure Gaussian noise images. While previous research has primarily
focused on improving the control of image generation through adjusting the
denoising process, we propose a novel direction of manipulating the initial
noise to control the generated image. Through experiments on stable diffusion,
we show that blocks of pixels in the initial latent images have a preference
for generating specific content, and that modifying these blocks can
significantly influence the generated image. In particular, we show that
modifying a part of the initial image affects the corresponding region of the
generated image while leaving other regions unaffected, which is useful for
repainting tasks. Furthermore, we find that the generation preferences of pixel
blocks are primarily determined by their values, rather than their position. By
moving pixel blocks with a tendency to generate user-desired content to
user-specified regions, our approach achieves state-of-the-art performance in
layout-to-image generation. Our results highlight the flexibility and power of
initial image manipulation in controlling the generated image.
- Abstract(参考訳): 拡散モデルでは、純ガウスノイズ画像から高品質な画像を生成することができる。
従来の研究は主にノイズ除去過程の調整による画像生成の制御の改善に重点を置いてきたが,本稿では初期雑音を操作して生成画像を制御する新しい方向を提案する。
安定拡散実験により,初期潜在画像中の画素のブロックは特定のコンテンツを生成するのに好適であり,これらのブロックの修正が生成画像に大きな影響を与えることを示した。
特に,初期画像の一部の変更が生成した画像の対応する領域に影響を及ぼし,他の領域に影響を与えないことを示す。
さらに,画素ブロックの生成嗜好は,その位置ではなく,主にその値によって決定されることがわかった。
ユーザ要求のコンテンツを生成する傾向のあるピクセルブロックをユーザ指定領域に移動させることで,レイアウト・画像生成における最先端の性能を実現する。
その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。
関連論文リスト
- Active Generation for Image Classification [50.18107721267218]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Tuning-Free Noise Rectification for High Fidelity Image-to-Video
Generation [23.81997037880116]
イメージ・ツー・ビデオ(I2V)生成タスクは常に、オープンドメインで高い忠実さを維持することに苦しむ。
いくつかの最近のI2Vフレームワークは、オープンドメインイメージの動的コンテンツを生成できるが、忠実さを維持できない。
本稿では,主流映像拡散モデルに適用可能な効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T09:57:47Z) - The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven
Initialization [34.417119749031535]
ランダムなガウス雑音像を復調する際の抽選券仮説を定式化する。
我々は、既知の当選チケットから初期ノイズを生成する意味駆動型初期画像構築を実装した。
この結果から,入賞チケットを初期雑音画像に集約することで,モデルが対応する位置で特定対象を生成できることが示唆された。
論文 参考訳(メタデータ) (2023-12-13T03:31:19Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [63.54342601757723]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Score Priors Guided Deep Variational Inference for Unsupervised
Real-World Single Image Denoising [14.486289176696438]
本稿では,実世界の実演のためのスコア先行誘導深部変分推論,すなわちScoreDVIを提案する。
我々は、実世界の雑音をモデル化するために、非i.i.d$ガウス混合モデルと変分ノイズ後部モデルを利用する。
提案手法は,他の単一画像ベースの実世界のデノベーション手法よりも優れ,データセットベースの教師なし手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T03:26:58Z) - Diffusion Brush: A Latent Diffusion Model-based Editing Tool for
AI-generated Images [10.323260768204461]
テキスト・ツー・イメージ生成モデルは高品質な画像の生成において顕著な進歩を遂げている。
生成した画像を微調整するための既存の技術は、時間を要する(手作業による編集)。
我々は,AI合成画像内の所望領域を効率よく微調整する潜在拡散モデル(LDM)ツールであるDiffusion Brushを提案する。
論文 参考訳(メタデータ) (2023-05-31T22:27:21Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z) - Blur, Noise, and Compression Robust Generative Adversarial Networks [85.68632778835253]
劣化画像から直接クリーンな画像生成装置を学習するために, ぼかし, ノイズ, 圧縮堅牢なGAN(BNCR-GAN)を提案する。
NR-GANにインスパイアされたBNCR-GANは、画像、ぼやけたカーネル、ノイズ、品質要素ジェネレータで構成される多重ジェネレータモデルを使用する。
CIFAR-10の大規模比較とFFHQの一般性解析によるBNCR-GANの有効性を実証する。
論文 参考訳(メタデータ) (2020-03-17T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。