論文の概要: Noise-Level Diffusion Guidance: Well Begun is Half Done
- arxiv url: http://arxiv.org/abs/2509.13936v1
- Date: Wed, 17 Sep 2025 13:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.845409
- Title: Noise-Level Diffusion Guidance: Well Begun is Half Done
- Title(参考訳): ノイズレベル拡散誘導:ベガンは半分
- Authors: Harvey Mannering, Zhiwu Huang, Adam Prugel-Bennett,
- Abstract要約: ノイズレベルガイダンス(NLG)は、単純で効率的で一般的なノイズレベル最適化手法である。
一般的な誘導との整合性を高めることにより、初期雑音を改善させる。
本手法は,拡散モデルに対する実用的でスケーラブルな拡張としてNLGを確立する。
- 参考スコア(独自算出の注目度): 9.745109820010601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved state-of-the-art image generation. However, the random Gaussian noise used to start the diffusion process influences the final output, causing variations in image quality and prompt adherence. Existing noise-level optimization approaches generally rely on extra dataset construction, additional networks, or backpropagation-based optimization, limiting their practicality. In this paper, we propose Noise Level Guidance (NLG), a simple, efficient, and general noise-level optimization approach that refines initial noise by increasing the likelihood of its alignment with general guidance - requiring no additional training data, auxiliary networks, or backpropagation. The proposed NLG approach provides a unified framework generalizable to both conditional and unconditional diffusion models, accommodating various forms of diffusion-level guidance. Extensive experiments on five standard benchmarks demonstrate that our approach enhances output generation quality and input condition adherence. By seamlessly integrating with existing guidance methods while maintaining computational efficiency, our method establishes NLG as a practical and scalable enhancement to diffusion models. Code can be found at https://github.com/harveymannering/NoiseLevelGuidance.
- Abstract(参考訳): 拡散モデルは最先端の画像生成を実現している。
しかし、拡散過程の開始に使用するランダムなガウスノイズは最終的な出力に影響を与え、画質の変動と迅速な定着を引き起こす。
既存のノイズレベルの最適化アプローチは一般的に、余分なデータセットの構築、追加のネットワーク、あるいはバックプロパゲーションベースの最適化に依存し、実用性を制限する。
本稿では,ノイズレベルガイダンス(NLG)を提案する。この手法は,学習データや補助ネットワーク,バックプロパゲーションを必要とせず,一般ガイダンスとの整合性を高めることにより,初期ノイズを改善できる。
提案手法は, 条件付き拡散モデルと非条件付き拡散モデルの両方に一般化可能な統一フレームワークを提供する。
5つの標準ベンチマークでの大規模な実験により,本手法は出力生成品質と入力条件の適合性を向上することが示された。
計算効率を維持しつつ,既存の指導手法とシームレスに統合することにより,拡散モデルの実用的でスケーラブルな拡張としてNLGを確立した。
コードはhttps://github.com/harveymannering/NoiseLevelGuidanceで見ることができる。
関連論文リスト
- A First-order Generative Bilevel Optimization Framework for Diffusion Models [57.40597004445473]
拡散モデルは、データサンプルを反復的に分解して高品質な出力を合成する。
従来の二値法は無限次元の確率空間と禁制的なサンプリングコストのために失敗する。
我々はこの問題を生成的二段階最適化問題として定式化する。
従来の2段階法と拡散過程の非互換性を克服する。
論文 参考訳(メタデータ) (2025-02-12T21:44:06Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation [31.599902235859687]
本稿では,テキストプロンプトなどの明示的なユーザ定義入力を補完する暗黙のガイダンスとして,一致したガウスノイズを活用することを提案する。
NoiseQueryはきめ細かい制御を可能にし、ハイレベルなセマンティクスや低レベルなビジュアル属性よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-12-06T14:59:00Z) - FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。
提案手法はSOTA法よりも10倍高速である。
論文 参考訳(メタデータ) (2024-07-28T10:07:55Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。