論文の概要: The Silent Prompt: Initial Noise as Implicit Guidance for Goal-Driven Image Generation
- arxiv url: http://arxiv.org/abs/2412.05101v1
- Date: Fri, 06 Dec 2024 14:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:01.878807
- Title: The Silent Prompt: Initial Noise as Implicit Guidance for Goal-Driven Image Generation
- Title(参考訳): サイレントプロンプト:ゴール駆動画像生成におけるインシシデントガイダンスとしての初期ノイズ
- Authors: Ruoyu Wang, Huayang Huang, Ye Zhu, Olga Russakovsky, Yu Wu,
- Abstract要約: テキスト・ツー・イメージ合成(T2I)は大規模拡散モデルの出現とともに著しく進歩した。
本研究では、しばしば見過ごされるノイズ自体が固有の生成傾向を符号化し、暗黙的に出力を導く「サイレントプロンプト」として機能することを明らかにする。
本稿では,様々なユーザニーズを満たすために,あらかじめ構築したノイズライブラリから最適な初期ノイズを選択する新しい手法であるNossQueryを紹介する。
- 参考スコア(独自算出の注目度): 31.599902235859687
- License:
- Abstract: Text-to-image synthesis (T2I) has advanced remarkably with the emergence of large-scale diffusion models. In the conventional setup, the text prompt provides explicit, user-defined guidance, directing the generation process by denoising a randomly sampled Gaussian noise. In this work, we reveal that the often-overlooked noise itself encodes inherent generative tendencies, acting as a "silent prompt" that implicitly guides the output. This implicit guidance, embedded in the noise scheduler design of diffusion model formulations and their training stages, generalizes across a wide range of T2I models and backbones. Building on this insight, we introduce NoiseQuery, a novel strategy that selects optimal initial noise from a pre-built noise library to meet diverse user needs. Our approach not only enhances high-level semantic alignment with text prompts, but also allows for nuanced adjustments of low-level visual attributes, such as texture, sharpness, shape, and color, which are typically challenging to control through text alone. Extensive experiments across various models and target attributes demonstrate the strong performance and zero-shot transferability of our approach, requiring no additional optimization.
- Abstract(参考訳): テキスト・ツー・イメージ合成(T2I)は大規模拡散モデルの出現とともに著しく進歩した。
従来の設定では、テキストプロンプトは明示的でユーザ定義のガイダンスを提供し、ランダムにサンプリングされたガウスノイズを識別することで生成プロセスを指示する。
本研究では、しばしば見過ごされるノイズ自体が固有の生成傾向を符号化し、暗黙的に出力を導く「サイレントプロンプト」として機能することを明らかにする。
この暗黙的なガイダンスは拡散モデル定式化のノイズスケジューラ設計とその訓練段階に埋め込まれ、広範囲のT2Iモデルとバックボーンにわたって一般化される。
この知見に基づいて、さまざまなユーザニーズを満たすために、あらかじめ構築されたノイズライブラリから最適な初期ノイズを選択する新しい戦略であるNossQueryを紹介します。
我々のアプローチは、テキストプロンプトと高レベルのセマンティックアライメントを強化するだけでなく、テクスチャ、シャープネス、形状、色などの低レベルの視覚特性の微調整を可能にする。
様々なモデルおよび対象属性にわたる広範囲な実験は、我々のアプローチの強い性能とゼロショット転送可能性を示し、追加の最適化を必要としない。
関連論文リスト
- Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [9.11767497956649]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。
本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。
実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文 参考訳(メタデータ) (2024-11-25T15:40:47Z) - Golden Noise for Diffusion Models: A Learning Framework [26.117889730713923]
テキスト・ツー・イメージ拡散モデルは、テキストプロンプトとランダムなガウスノイズを提供することでパーソナライズされた画像を合成する一般的なパラダイムである。
テキスト画像のアライメントが向上し、人の好みが向上する「黄金のノイズ」を人々は見ているが、これらの黄金のノイズを得るための機械学習フレームワークはいまだに欠如している。
論文 参考訳(メタデータ) (2024-11-14T15:13:13Z) - Beyond Image Prior: Embedding Noise Prior into Conditional Denoising Transformer [17.430622649002427]
既存の学習ベースの推論手法は、大規模なデータセットからイメージを一般化するためにモデルを訓練するのが一般的である。
本稿では,ノイズと画像の先行部分の分離を区別することによる,難読化問題に対する新たな視点を提案する。
本稿では,1つの生雑音画像から直接先行する雑音を正確に推定する局所雑音優先推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-12T08:43:11Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z) - Variational Denoising Network: Toward Blind Noise Modeling and Removal [59.36166491196973]
ブラインド画像のデノイングはコンピュータビジョンにおいて重要な問題であるが、非常に難しい問題である。
本稿では,ノイズ推定と画像デノーミングを併用した新しい変分推論手法を提案する。
論文 参考訳(メタデータ) (2019-08-29T15:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。