論文の概要: Improving Diffusion Generalization with Weak-to-Strong Segmented Guidance
- arxiv url: http://arxiv.org/abs/2603.20584v1
- Date: Sat, 21 Mar 2026 00:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.982121
- Title: Improving Diffusion Generalization with Weak-to-Strong Segmented Guidance
- Title(参考訳): 弱ストロング分割誘導による拡散一般化の改善
- Authors: Liangyu Yuan, Yufei Huang, Mingkun Lei, Tong Zhao, Ruoyu Wang, Changxi Chi, Yiwei Wang, Chi Zhang,
- Abstract要約: 拡散モデルは反復精製プロセスを通じて合成画像を生成する。
Free Guidance (CFG) と AutoGuidance (AG) は、より強力な一般化のために、主信号と劣悪信号の間に外挿することでこれを緩和する。
本稿では,SGGと呼ばれるハイブリッドインスタンス化手法を提案し,両者の利点を生かした。
- 参考スコア(独自算出の注目度): 19.011255034658735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models generate synthetic images through an iterative refinement process. However, the misalignment between the simulation-free objective and the iterative process often causes accumulated gradient error along the sampling trajectory, which leads to unsatisfactory results and a failure to generalize. Guidance techniques like Classifier Free Guidance (CFG) and AutoGuidance (AG) alleviate this by extrapolating between the main and inferior signal for stronger generalization. Despite empirical success, the effective operational regimes of prevalent guidance methods are still under-explored, leading to ambiguity when selecting the appropriate guidance method given a precondition. In this work, we first conduct synthetic comparisons to isolate and demonstrate the effective regime of guidance methods represented by CFG and AG from the perspective of weak-to-strong principle. Based on this, we propose a hybrid instantiation called SGG under the principle, taking the benefits of both. Furthermore, we demonstrate that the W2S principle along with SGG can be migrated into the training objective, improving the generalization ability of unguided diffusion models. We validate our approach with comprehensive experiments. At inference time, evaluations on SD3 and SD3.5 confirm that SGG outperforms existing training-free guidance variants. Training-time experiments on transformer architectures demonstrate the effective migration and performance gains in both conditional and unconditional settings. Code is available at https://github.com/851695e35/SGG.
- Abstract(参考訳): 拡散モデルは反復精製プロセスを通じて合成画像を生成する。
しかし、シミュレーションのない目的と反復的なプロセスのミスアライメントは、しばしばサンプリング軌道に沿って蓄積された勾配誤差を引き起こし、不満足な結果と一般化に失敗する。
Classifier Free Guidance (CFG) や AutoGuidance (AG) のようなガイダンス技術は、より強力な一般化のために主信号と劣信号の間に外挿することでこれを緩和する。
実証的な成功にもかかわらず、一般的なガイダンス手法の効果的な運用体制はまだ未熟であり、事前条件が与えられた適切なガイダンス手法を選択する際の曖昧さにつながっている。
本研究ではまず, CFG と AG で表される指導法を, 弱強原理の観点から分離し, 効果的に比較した。
そこで本研究では,SGGと呼ばれるハイブリッドインスタンス化を原則として提案し,両者の利点を生かした。
さらに,SGGとともにW2Sの原理をトレーニング対象に移行し,非誘導拡散モデルの一般化能力を向上させることを実証した。
包括的な実験でアプローチを検証する。
SD3 と SD3.5 の評価では、SGG が既存のトレーニングフリーガイダンスよりも優れていることが確認された。
変圧器アーキテクチャの訓練時間実験は、条件および非条件設定の両方において、効果的なマイグレーションと性能向上を示す。
コードはhttps://github.com/851695e35/SGGで入手できる。
関連論文リスト
- Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling [82.52485740425321]
アドリアックは、ディープニューラルネットワークの堅牢性にとって重要な課題である。
敵攻撃の伝達性は、爆発(最大攻撃能力)と探索(クロスモデル一般化の促進)のジレンマに直面している
論文 参考訳(メタデータ) (2025-11-01T05:43:47Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - REG: Rectified Gradient Guidance for Conditional Diffusion Models [16.275782069986253]
本稿では,既存のガイダンス手法の性能向上を図るために,修正勾配ガイダンス(REG)を提案する。
REGは、事前のガイダンス技術よりも最適なソリューションにより良い近似を提供する。
クラス条件の画像ネットとテキスト・ツー・イメージ生成タスクの実験では、REGは一貫してFIDとインセプション/CLIPスコアを改善している。
論文 参考訳(メタデータ) (2025-01-31T03:16:18Z) - Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z) - Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-07-05T15:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。