論文の概要: The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise
- arxiv url: http://arxiv.org/abs/2406.01970v1
- Date: Tue, 4 Jun 2024 05:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 18:00:19.001504
- Title: The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise
- Title(参考訳): 拡散モデルにおける結晶球仮説:初期雑音からの物体位置予測
- Authors: Yuanhao Ban, Ruochen Wang, Tianyi Zhou, Boqing Gong, Cho-Jui Hsieh, Minhao Cheng,
- Abstract要約: 拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収めた。
我々は、初期ノイズ画像内の特定の領域をトリガーパッチと呼び、結果として発生する画像のオブジェクト生成に重要な役割を果たす。
- 参考スコア(独自算出の注目度): 92.53724347718173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved remarkable success in text-to-image generation tasks; however, the role of initial noise has been rarely explored. In this study, we identify specific regions within the initial noise image, termed trigger patches, that play a key role for object generation in the resulting images. Notably, these patches are ``universal'' and can be generalized across various positions, seeds, and prompts. To be specific, extracting these patches from one noise and injecting them into another noise leads to object generation in targeted areas. We identify these patches by analyzing the dispersion of object bounding boxes across generated images, leading to the development of a posterior analysis technique. Furthermore, we create a dataset consisting of Gaussian noises labeled with bounding boxes corresponding to the objects appearing in the generated images and train a detector that identifies these patches from the initial noise. To explain the formation of these patches, we reveal that they are outliers in Gaussian noise, and follow distinct distributions through two-sample tests. Finally, we find the misalignment between prompts and the trigger patch patterns can result in unsuccessful image generations. The study proposes a reject-sampling strategy to obtain optimal noise, aiming to improve prompt adherence and positional diversity in image generation.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収めてきたが、初期ノイズの役割を探求することはめったにない。
本研究では,初期ノイズ画像中の特定の領域,すなわちトリガーパッチを同定し,オブジェクト生成に重要な役割を担っている。
特に、これらのパッチは'universal''であり、様々な位置、種、プロンプトにまたがって一般化することができる。
具体的には、これらのパッチをあるノイズから抽出し、別のノイズに注入すると、対象領域におけるオブジェクト生成につながる。
生成した画像間のオブジェクト境界ボックスの分散を分析してこれらのパッチを同定し、後部解析手法の開発に繋がる。
さらに、生成画像に現れる物体に対応する境界ボックスをラベル付けしたガウスノイズからなるデータセットを作成し、これらのパッチを初期ノイズから識別する検出器を訓練する。
これらのパッチの形成を説明するために、ガウス雑音の外れ値であり、2サンプル試験により異なる分布に従うことを明らかにする。
最後に、プロンプトとトリガーパッチパターンの不一致は、画像生成に失敗する可能性があることを発見した。
本研究は,画像生成における適応性や位置の多様性の向上を目的とした,最適な雑音を得るためのリジェクションサンプリング戦略を提案する。
関連論文リスト
- There and Back Again: On the relation between noises, images, and their inversions in diffusion models [3.5707423185282665]
拡散確率モデル(DDPM)は、ランダムノイズから新しい画像を合成する際に最先端の性能を達成する。
近年のDDPMベースの編集技術は、画像を近似した星音に戻すことでこの問題を緩和しようとしている。
本研究では,初期ガウス雑音,それから発生するサンプル,およびインバージョン処理により得られた対応する潜時符号化との関係について検討する。
論文 参考訳(メタデータ) (2024-10-31T00:30:35Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - NoiseDiffusion: Correcting Noise for Image Interpolation with Diffusion Models beyond Spherical Linear Interpolation [86.7260950382448]
画像の妥当性を補正する新しい手法としてノイズ拡散法を提案する。
NoiseDiffusionはノイズの多い画像空間内で動作し、これらのノイズの多い画像に生画像を注入することで、情報損失の課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T12:32:25Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - A Generative Model for Digital Camera Noise Synthesis [12.236112464800403]
クリーンな特徴をガイダンスとして利用し,続いてネットワークにノイズ注入を行う効果的な生成モデルを提案する。
具体的には、ジェネレータはスキップ接続を持つUNetのような構造を踏襲するが、ダウンサンプリングやアップサンプリングは行わない。
提案手法は,カメラノイズを合成するための既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-16T10:17:33Z) - Image Embedding for Denoising Generative Models [0.0]
逆拡散過程の決定論的性質から拡散入射モデルに着目する。
本研究の副次として,拡散モデルの潜伏空間の構造についてより深い知見を得た。
論文 参考訳(メタデータ) (2022-12-30T17:56:07Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z) - Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating
Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。
提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文 参考訳(メタデータ) (2020-07-23T18:47:36Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。