論文の概要: It's Never Too Late: Noise Optimization for Collapse Recovery in Trained Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.00090v1
- Date: Wed, 31 Dec 2025 19:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.253415
- Title: It's Never Too Late: Noise Optimization for Collapse Recovery in Trained Diffusion Models
- Title(参考訳): 教育用拡散モデルにおける崩壊回復のための騒音最適化
- Authors: Anne Harrington, A. Sophia Koepke, Shyamgopal Karthik, Trevor Darrell, Alexei A. Efros,
- Abstract要約: 基本モデルの忠実さを保ちつつモード崩壊を緩和する,単純な雑音最適化の目的を示す。
実験により,騒音の最適化は生成品質と多様性の点で優れた結果をもたらすことが示された。
- 参考スコア(独自算出の注目度): 80.53672733210111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary text-to-image models exhibit a surprising degree of mode collapse, as can be seen when sampling several images given the same text prompt. While previous work has attempted to address this issue by steering the model using guidance mechanisms, or by generating a large pool of candidates and refining them, in this work we take a different direction and aim for diversity in generations via noise optimization. Specifically, we show that a simple noise optimization objective can mitigate mode collapse while preserving the fidelity of the base model. We also analyze the frequency characteristics of the noise and show that alternative noise initializations with different frequency profiles can improve both optimization and search. Our experiments demonstrate that noise optimization yields superior results in terms of generation quality and variety.
- Abstract(参考訳): 現代のテキスト・ツー・イメージモデルは、同じテキストプロンプトを与えられた複数の画像をサンプリングする際に見られるように、驚くほどのモード崩壊を示す。
従来の研究は、誘導機構を用いてモデルをステアリングしたり、大量の候補を生成して精製することでこの問題に対処しようと試みてきたが、この研究では、異なる方向を採り、ノイズ最適化を通じて世代ごとの多様性を目指しています。
具体的には,基本モデルの忠実さを保ちながら,単純な雑音最適化によりモード崩壊を緩和できることを示す。
また、雑音の周波数特性を分析し、異なる周波数プロファイルの代替雑音初期化が最適化と探索の両方を改善することを示す。
実験により,騒音の最適化は生成品質と多様性の点で優れた結果をもたらすことが示された。
関連論文リスト
- Noise Projection: Closing the Prompt-Agnostic Gap Behind Text-to-Image Misalignment in Diffusion Models [9.683618735282414]
テキスト・ツー・イメージ生成において、異なる初期ノイズは、事前訓練された安定拡散(SD)モデルで異なる雑音を誘導する。
このパターンは多様な画像を出力できるが、いくつかのパターンはプロンプトとうまく一致しないかもしれない。
そこで本研究では,初期雑音に対してテキスト条件の修正を施したノイズプロジェクタを提案する。
論文 参考訳(メタデータ) (2025-10-16T10:14:34Z) - Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance [54.88271057438763]
ノイズアウェアネスガイダンス (NAG) は、事前に定義された騒音スケジュールと整合性を保つために、サンプリング軌道を明示的に制御する補正手法である。
NAGは一貫してノイズシフトを緩和し、主流拡散モデルの生成品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-10-14T13:31:34Z) - Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。
この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文 参考訳(メタデータ) (2025-06-11T06:01:39Z) - A Minimalist Method for Fine-tuning Text-to-Image Diffusion Models [3.8623569699070357]
ノイズPPOは、初期雑音発生器を学習する最小限の強化学習アルゴリズムである。
実験により、ノイズPPOは元のモデルよりもアライメントとサンプル品質を一貫して改善することが示された。
これらの知見は拡散モデルにおける最小主義的RL微調整の実用的価値を裏付けるものである。
論文 参考訳(メタデータ) (2025-05-23T00:01:52Z) - ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos [41.45750971432533]
ビデオ拡散モデル(VDM)は高品質のビデオの生成を容易にする。
近年,映像の質を高める「金音」の存在が報告されている。
本研究では,拡散サンプリングプロセスにおける黄金の初期雑音を識別する,プラグアンドプレイの推論時間探索手法であるScalingNoiseを提案する。
論文 参考訳(メタデータ) (2025-03-20T17:54:37Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。