論文の概要: Noise Projection: Closing the Prompt-Agnostic Gap Behind Text-to-Image Misalignment in Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.14526v1
- Date: Thu, 16 Oct 2025 10:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.81251
- Title: Noise Projection: Closing the Prompt-Agnostic Gap Behind Text-to-Image Misalignment in Diffusion Models
- Title(参考訳): ノイズプロジェクション:拡散モデルにおけるテキストと画像の相違の裏側にあるプロンプト非依存ギャップを閉鎖する
- Authors: Yunze Tong, Didi Zhu, Zijing Hu, Jinluan Yang, Ziyu Zhao,
- Abstract要約: テキスト・ツー・イメージ生成において、異なる初期ノイズは、事前訓練された安定拡散(SD)モデルで異なる雑音を誘導する。
このパターンは多様な画像を出力できるが、いくつかのパターンはプロンプトとうまく一致しないかもしれない。
そこで本研究では,初期雑音に対してテキスト条件の修正を施したノイズプロジェクタを提案する。
- 参考スコア(独自算出の注目度): 9.683618735282414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In text-to-image generation, different initial noises induce distinct denoising paths with a pretrained Stable Diffusion (SD) model. While this pattern could output diverse images, some of them may fail to align well with the prompt. Existing methods alleviate this issue either by altering the denoising dynamics or by drawing multiple noises and conducting post-selection. In this paper, we attribute the misalignment to a training-inference mismatch: during training, prompt-conditioned noises lie in a prompt-specific subset of the latent space, whereas at inference the noise is drawn from a prompt-agnostic Gaussian prior. To close this gap, we propose a noise projector that applies text-conditioned refinement to the initial noise before denoising. Conditioned on the prompt embedding, it maps the noise to a prompt-aware counterpart that better matches the distribution observed during SD training, without modifying the SD model. Our framework consists of these steps: we first sample some noises and obtain token-level feedback for their corresponding images from a vision-language model (VLM), then distill these signals into a reward model, and finally optimize the noise projector via a quasi-direct preference optimization. Our design has two benefits: (i) it requires no reference images or handcrafted priors, and (ii) it incurs small inference cost, replacing multi-sample selection with a single forward pass. Extensive experiments further show that our prompt-aware noise projection improves text-image alignment across diverse prompts.
- Abstract(参考訳): テキスト・ツー・イメージ生成において、異なる初期ノイズは、事前訓練された安定拡散(SD)モデルで異なる雑音を誘導する。
このパターンは多様な画像を出力できるが、いくつかのパターンはプロンプトとうまく一致しないかもしれない。
既存の手法では、この問題を退化ダイナミクスを変更したり、複数のノイズを描画したり、選択後に実行したりすることで緩和する。
本稿では,学習中,暗騒音が潜伏空間のプロンプト固有部分集合にあるのに対して,推論時にそのノイズは急速非依存のガウス先行から引き出されるという,トレーニング推論ミスマッチが原因と考えられる。
このギャップを埋めるために,初期雑音にテキスト条件の洗練を施したノイズプロジェクタを提案する。
プロンプト埋め込みの条件で、SDモデルを変更することなく、SDトレーニング中に観測された分布によく一致するプロンプト対応のノイズをマッピングする。
まず,視覚言語モデル (VLM) から雑音をサンプリングし,対応する画像に対するトークンレベルのフィードバックを取得し,その信号を報奨モデルに蒸留し,準指向的な選好最適化により最終的にノイズプロジェクタを最適化する。
私たちのデザインには2つの利点があります。
(i)参照画像や手作り先行書は不要で、
(ii)マルチサンプル選択を1つのフォワードパスに置き換え、小さな推論コストを発生させる。
広汎な実験により, 様々なプロンプトにまたがるテキスト画像のアライメントが向上することが明らかとなった。
関連論文リスト
- Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance [54.88271057438763]
ノイズアウェアネスガイダンス (NAG) は、事前に定義された騒音スケジュールと整合性を保つために、サンプリング軌道を明示的に制御する補正手法である。
NAGは一貫してノイズシフトを緩和し、主流拡散モデルの生成品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-10-14T13:31:34Z) - Be Decisive: Noise-Induced Layouts for Multi-Subject Generation [56.80513553424086]
複雑なプロンプトは被写体漏れを引き起こし、量、属性、視覚的特徴の不正確さを引き起こす。
本稿では,初期雑音から導出されるプロンプトに整合した空間配置を予測し,デノナイジング過程を通じて改良する手法を提案する。
提案手法では,各聴覚ステップにおける雑音誘発レイアウトを予測・改善するために,小さなニューラルネットワークを用いる。
論文 参考訳(メタデータ) (2025-05-27T17:54:24Z) - Enhancing Sample Generation of Diffusion Models using Noise Level Correction [9.014666170540304]
提案手法は, 推定雑音レベルと雑音の真の距離を多様体に合わせることで, サンプル生成を向上する手法である。
具体的には,事前学習した騒音レベル補正ネットワークを導入し,騒音レベル推定を改良する。
実験結果から,本手法は,制約のない生成シナリオと制約のない生成シナリオの両方において,サンプルの品質を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-07T01:19:14Z) - The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation [31.599902235859687]
本稿では,テキストプロンプトなどの明示的なユーザ定義入力を補完する暗黙のガイダンスとして,一致したガウスノイズを活用することを提案する。
NoiseQueryはきめ細かい制御を可能にし、ハイレベルなセマンティクスや低レベルなビジュアル属性よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-12-06T14:59:00Z) - Beyond Image Prior: Embedding Noise Prior into Conditional Denoising Transformer [17.430622649002427]
既存の学習ベースの推論手法は、大規模なデータセットからイメージを一般化するためにモデルを訓練するのが一般的である。
本稿では,ノイズと画像の先行部分の分離を区別することによる,難読化問題に対する新たな視点を提案する。
本稿では,1つの生雑音画像から直接先行する雑音を正確に推定する局所雑音優先推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-12T08:43:11Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Variational Denoising Network: Toward Blind Noise Modeling and Removal [59.36166491196973]
ブラインド画像のデノイングはコンピュータビジョンにおいて重要な問題であるが、非常に難しい問題である。
本稿では,ノイズ推定と画像デノーミングを併用した新しい変分推論手法を提案する。
論文 参考訳(メタデータ) (2019-08-29T15:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。