論文の概要: S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.12880v1
- Date: Mon, 18 Aug 2025 12:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.283794
- Title: S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models
- Title(参考訳): S^2-Guidance: 拡散モデルの学習自由化のための確率的自己誘導
- Authors: Chubin Chen, Jiashu Zhu, Xiaokun Feng, Nisha Huang, Meiqi Wu, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Xiu Li,
- Abstract要約: S2-Guidanceは、フォワードプロセス中のブロックドロップを利用してサブネットワークを構築する新しい方法である。
テキスト・ツー・イメージおよびテキスト・ツー・ビデオ生成タスクの実験は、S2-Guidanceが優れたパフォーマンスを提供することを示す。
- 参考スコア(独自算出の注目度): 26.723485624790523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-free Guidance (CFG) is a widely used technique in modern diffusion models for enhancing sample quality and prompt adherence. However, through an empirical analysis on Gaussian mixture modeling with a closed-form solution, we observe a discrepancy between the suboptimal results produced by CFG and the ground truth. The model's excessive reliance on these suboptimal predictions often leads to semantic incoherence and low-quality outputs. To address this issue, we first empirically demonstrate that the model's suboptimal predictions can be effectively refined using sub-networks of the model itself. Building on this insight, we propose S^2-Guidance, a novel method that leverages stochastic block-dropping during the forward process to construct stochastic sub-networks, effectively guiding the model away from potential low-quality predictions and toward high-quality outputs. Extensive qualitative and quantitative experiments on text-to-image and text-to-video generation tasks demonstrate that S^2-Guidance delivers superior performance, consistently surpassing CFG and other advanced guidance strategies. Our code will be released.
- Abstract(参考訳): CFG (Classifier-free Guidance) は, 近代拡散モデルにおいて, 試料品質の向上と即時付着性向上に広く用いられている技術である。
しかし、ガウス混合モデリングと閉形式解の実証分析により、CFGが生み出した準最適結果と基底真理との相違を観察する。
このモデルの過度な最適予測への依存は、しばしばセマンティック・アンコヒーレンスと低品質な出力をもたらす。
この問題に対処するために、まず、モデル自体のサブネットワークを用いてモデルの最適下予測を効果的に改善できることを実証的に実証した。
この知見に基づいて,S^2-Guidanceを提案する。S^2-Guidanceは,前処理中に確率的ブロックドロップを利用して確率的サブネットワークを構築する新しい手法で,モデルが潜在的に低品質な予測から脱却され,高品質な出力へと効果的に導く。
S^2-GuidanceがCFGや他の高度なガイダンス戦略を一貫して上回り、優れたパフォーマンスを提供することを示す。
私たちのコードは解放されます。
関連論文リスト
- Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。
我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。
提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文 参考訳(メタデータ) (2025-02-17T18:59:50Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Lipsum-FT: Robust Fine-Tuning of Zero-Shot Models Using Random Text Guidance [27.91782770050068]
大規模なコントラスト付き視覚言語事前学習モデルは、下流データでのトレーニングを必要とせず、様々な画像分類タスクの競合性能を達成するゼロショットモデルを提供する。
近年の研究では、参照データにゼロショットモデルの微調整を加えることで、下流のパフォーマンスが向上することが確認されているが、分散シフトに対するモデルの堅牢性は損なわれている。
本稿では,視覚言語事前学習モデルの言語モデリングを効果的に活用する,頑健な微調整アルゴリズムLipsum-FTを提案する。
論文 参考訳(メタデータ) (2024-04-01T02:01:33Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - Enhancing Certified Robustness via Smoothed Weighted Ensembling [7.217295098686032]
Smoothed Weighted ENsembling scheme を用いてランダム化スムーズな分類器の性能を向上させる。
SWEENが最適な証明された堅牢性を達成するのに有効であることを示す。
また,SWEENモデルの予測と認証コストを削減するための適応予測アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-05-19T11:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。