論文の概要: The Silent Prompt: Initial Noise as Implicit Guidance for Goal-Driven Image Generation
- arxiv url: http://arxiv.org/abs/2412.05101v1
- Date: Fri, 06 Dec 2024 14:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 22:41:41.155108
- Title: The Silent Prompt: Initial Noise as Implicit Guidance for Goal-Driven Image Generation
- Title(参考訳): サイレントプロンプト:ゴール駆動画像生成におけるインシシデントガイダンスとしての初期ノイズ
- Authors: Ruoyu Wang, Huayang Huang, Ye Zhu, Olga Russakovsky, Yu Wu,
- Abstract要約: テキスト・ツー・イメージ合成(T2I)は大規模拡散モデルの出現とともに著しく進歩した。
本研究では、しばしば見過ごされるノイズ自体が固有の生成傾向を符号化し、暗黙的に出力を導く「サイレントプロンプト」として機能することを明らかにする。
本稿では,様々なユーザニーズを満たすために,あらかじめ構築したノイズライブラリから最適な初期ノイズを選択する新しい手法であるNossQueryを紹介する。
- 参考スコア(独自算出の注目度): 31.599902235859687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis (T2I) has advanced remarkably with the emergence of large-scale diffusion models. In the conventional setup, the text prompt provides explicit, user-defined guidance, directing the generation process by denoising a randomly sampled Gaussian noise. In this work, we reveal that the often-overlooked noise itself encodes inherent generative tendencies, acting as a "silent prompt" that implicitly guides the output. This implicit guidance, embedded in the noise scheduler design of diffusion model formulations and their training stages, generalizes across a wide range of T2I models and backbones. Building on this insight, we introduce NoiseQuery, a novel strategy that selects optimal initial noise from a pre-built noise library to meet diverse user needs. Our approach not only enhances high-level semantic alignment with text prompts, but also allows for nuanced adjustments of low-level visual attributes, such as texture, sharpness, shape, and color, which are typically challenging to control through text alone. Extensive experiments across various models and target attributes demonstrate the strong performance and zero-shot transferability of our approach, requiring no additional optimization.
- Abstract(参考訳): テキスト・ツー・イメージ合成(T2I)は大規模拡散モデルの出現とともに著しく進歩した。
従来の設定では、テキストプロンプトは明示的でユーザ定義のガイダンスを提供し、ランダムにサンプリングされたガウスノイズを識別することで生成プロセスを指示する。
本研究では、しばしば見過ごされるノイズ自体が固有の生成傾向を符号化し、暗黙的に出力を導く「サイレントプロンプト」として機能することを明らかにする。
この暗黙的なガイダンスは拡散モデル定式化のノイズスケジューラ設計とその訓練段階に埋め込まれ、広範囲のT2Iモデルとバックボーンにわたって一般化される。
この知見に基づいて、さまざまなユーザニーズを満たすために、あらかじめ構築されたノイズライブラリから最適な初期ノイズを選択する新しい戦略であるNossQueryを紹介します。
我々のアプローチは、テキストプロンプトと高レベルのセマンティックアライメントを強化するだけでなく、テクスチャ、シャープネス、形状、色などの低レベルの視覚特性の微調整を可能にする。
様々なモデルおよび対象属性にわたる広範囲な実験は、我々のアプローチの強い性能とゼロショット転送可能性を示し、追加の最適化を必要としない。
関連論文リスト
- DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Using Random Noise Equivariantly to Boost Graph Neural Networks Universally [27.542173012315413]
グラフニューラルネットワーク(GNN)は、様々なタスクにおける表現性を高めるために、入力機能としてランダムノイズの可能性を探っている。
本稿では,GNNにランダムノイズを発生させる際のサンプルの複雑さの増大を,慎重に設計することなく解明する理論的枠組みについて述べる。
本稿では, 雑音の対称特性を利用して, サンプルの複雑さとボスターの一般化を実現するアーキテクチャであるEquivariant Noise GNN (ENGNN)を提案する。
論文 参考訳(メタデータ) (2025-02-04T16:54:28Z) - Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [9.11767497956649]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。
本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。
実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文 参考訳(メタデータ) (2024-11-25T15:40:47Z) - Golden Noise for Diffusion Models: A Learning Framework [26.117889730713923]
テキスト・ツー・イメージ拡散モデルは、テキストプロンプトとランダムなガウスノイズを提供することでパーソナライズされた画像を合成する一般的なパラダイムである。
テキスト画像のアライメントが向上し、人の好みが向上する「黄金のノイズ」を人々は見ているが、これらの黄金のノイズを得るための機械学習フレームワークはいまだに欠如している。
論文 参考訳(メタデータ) (2024-11-14T15:13:13Z) - Beyond Image Prior: Embedding Noise Prior into Conditional Denoising Transformer [17.430622649002427]
既存の学習ベースの推論手法は、大規模なデータセットからイメージを一般化するためにモデルを訓練するのが一般的である。
本稿では,ノイズと画像の先行部分の分離を区別することによる,難読化問題に対する新たな視点を提案する。
本稿では,1つの生雑音画像から直接先行する雑音を正確に推定する局所雑音優先推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-12T08:43:11Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。
AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。
提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation [11.556147036111222]
本稿では、ノイズやテキストを含む2つの入力プロンプトを改善し、拡散に基づくテキスト・ビデオ生成を改善することを目的とする。
テキスト・ツー・ビデオ・モデルを改善するためのトレーニング不要な Prompt Optimization Suite であるPOS を提案する。
論文 参考訳(メタデータ) (2023-11-02T02:33:09Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。