論文の概要: InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization
- arxiv url: http://arxiv.org/abs/2404.04650v1
- Date: Sat, 6 Apr 2024 14:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:09:57.380867
- Title: InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization
- Title(参考訳): InitNO:初期雑音最適化によるテキスト・画像拡散モデルの構築
- Authors: Xiefan Guo, Jinlin Liu, Miaomiao Cui, Jiankai Li, Hongyu Yang, Di Huang,
- Abstract要約: InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
- 参考スコア(独自算出の注目度): 27.508861002013358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent strides in the development of diffusion models, exemplified by advancements such as Stable Diffusion, have underscored their remarkable prowess in generating visually compelling images. However, the imperative of achieving a seamless alignment between the generated image and the provided prompt persists as a formidable challenge. This paper traces the root of these difficulties to invalid initial noise, and proposes a solution in the form of Initial Noise Optimization (InitNO), a paradigm that refines this noise. Considering text prompts, not all random noises are effective in synthesizing semantically-faithful images. We design the cross-attention response score and the self-attention conflict score to evaluate the initial noise, bifurcating the initial latent space into valid and invalid sectors. A strategically crafted noise optimization pipeline is developed to guide the initial noise towards valid regions. Our method, validated through rigorous experimentation, shows a commendable proficiency in generating images in strict accordance with text prompts. Our code is available at https://github.com/xiefan-guo/initno.
- Abstract(参考訳): 安定拡散のような進歩によって実証された拡散モデルの開発における最近の進歩は、視覚的に魅力的な画像を生成するという彼らの顕著な成果を裏付けている。
しかし、生成した画像と提供されたプロンプトとのシームレスなアライメントを達成するという命令は、非常に難しい課題として持続する。
本稿では,初期雑音を除去する手法である初期雑音最適化(Initial noise Optimization, InitNO)の手法を提案する。
テキストのプロンプトを考えると、すべてのランダムノイズが意味に忠実な画像の合成に有効であるわけではない。
我々は、初期雑音を評価するために、クロスアテンション応答スコアと自己アテンション競合スコアを設計し、初期潜在空間を有効かつ無効なセクターに分岐させる。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
私たちのコードはhttps://github.com/xiefan-guo/initno.comから入手可能です。
関連論文リスト
- Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation [43.48099716183503]
本稿では,拡散に基づく画像から画像への変換に適した学習自由なアプローチを提案する。
本手法は,既存の画像から画像への翻訳手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2024-09-12T14:30:45Z) - Beyond Image Prior: Embedding Noise Prior into Conditional Denoising Transformer [17.430622649002427]
既存の学習ベースの推論手法は、大規模なデータセットからイメージを一般化するためにモデルを訓練するのが一般的である。
本稿では,ノイズと画像の先行部分の分離を区別することによる,難読化問題に対する新たな視点を提案する。
本稿では,1つの生雑音画像から直接先行する雑音を正確に推定する局所雑音優先推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-12T08:43:11Z) - The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise [92.53724347718173]
拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収めた。
我々は、初期ノイズ画像内の特定の領域をトリガーパッチと呼び、結果として発生する画像のオブジェクト生成に重要な役割を果たす。
論文 参考訳(メタデータ) (2024-06-04T05:06:00Z) - NoiseDiffusion: Correcting Noise for Image Interpolation with Diffusion Models beyond Spherical Linear Interpolation [86.7260950382448]
画像の妥当性を補正する新しい手法としてノイズ拡散法を提案する。
NoiseDiffusionはノイズの多い画像空間内で動作し、これらのノイズの多い画像に生画像を注入することで、情報損失の課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T12:32:25Z) - The Lottery Ticket Hypothesis in Denoising: Towards Semantic-Driven Initialization [30.622943615086584]
ランダムなガウス雑音像を復調する際の抽選券仮説を定式化する。
優勝チケットは独立して特定のコンテンツにデノベートされる傾向がある。
我々は、既知の当選チケットから初期ノイズを生成する意味駆動型初期画像構築を実装した。
論文 参考訳(メタデータ) (2023-12-13T03:31:19Z) - Back to Basics: Fast Denoising Iterative Algorithm [0.0]
ノイズ低減のための高速反復アルゴリズムであるBack to Basics (BTB)を紹介する。
光コヒーレンス・トモグラフィー(OCT)における白色ガウス雑音の存在下での自然像,ポアソン分布画像デノイング,スペックル抑制の3症例について検討した。
実験結果から,提案手法は画像品質を効果的に向上しうることを示す。
論文 参考訳(メタデータ) (2023-11-11T18:32:06Z) - Score Priors Guided Deep Variational Inference for Unsupervised
Real-World Single Image Denoising [14.486289176696438]
本稿では,実世界の実演のためのスコア先行誘導深部変分推論,すなわちScoreDVIを提案する。
我々は、実世界の雑音をモデル化するために、非i.i.d$ガウス混合モデルと変分ノイズ後部モデルを利用する。
提案手法は,他の単一画像ベースの実世界のデノベーション手法よりも優れ,データセットベースの教師なし手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T03:26:58Z) - Representing Noisy Image Without Denoising [91.73819173191076]
ラドン空間におけるフラクショナルオーダーモーメント(FMR)は、ノイズの多い画像から直接ロバストな表現を引き出すように設計されている。
従来の整数順序法とは異なり、我々の研究は特別な場合のような古典的手法を取り入れたより汎用的な設計である。
論文 参考訳(メタデータ) (2023-01-18T10:13:29Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。