論文の概要: Improving Classifier-Free Guidance of Flow Matching via Manifold Projection
- arxiv url: http://arxiv.org/abs/2601.21892v1
- Date: Thu, 29 Jan 2026 15:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.957231
- Title: Improving Classifier-Free Guidance of Flow Matching via Manifold Projection
- Title(参考訳): マニフォールド投影によるフローマッチング自由誘導の改善
- Authors: Jian-Feng Cai, Haixia Liu, Zhengyi Su, Chao Wang,
- Abstract要約: 最適化のレンズによるCFGの原理的解釈を提供する。
CFGサンプリングを多様体制約によるホモトピー最適化として再構成する。
提案手法は, トレーニング不要かつ一貫した生成忠実度, 迅速なアライメント, ガイダンス尺度に対するロバスト性である。
- 参考スコア(独自算出の注目度): 3.6087998976768128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifier-free guidance (CFG) is a widely used technique for controllable generation in diffusion and flow-based models. Despite its empirical success, CFG relies on a heuristic linear extrapolation that is often sensitive to the guidance scale. In this work, we provide a principled interpretation of CFG through the lens of optimization. We demonstrate that the velocity field in flow matching corresponds to the gradient of a sequence of smoothed distance functions, which guides latent variables toward the scaled target image set. This perspective reveals that the standard CFG formulation is an approximation of this gradient, where the prediction gap, the discrepancy between conditional and unconditional outputs, governs guidance sensitivity. Leveraging this insight, we reformulate the CFG sampling as a homotopy optimization with a manifold constraint. This formulation necessitates a manifold projection step, which we implement via an incremental gradient descent scheme during sampling. To improve computational efficiency and stability, we further enhance this iterative process with Anderson Acceleration without requiring additional model evaluations. Our proposed methods are training-free and consistently refine generation fidelity, prompt alignment, and robustness to the guidance scale. We validate their effectiveness across diverse benchmarks, demonstrating significant improvements on large-scale models such as DiT-XL-2-256, Flux, and Stable Diffusion 3.5.
- Abstract(参考訳): 分類器フリーガイダンス(CFG)は拡散およびフローベースモデルにおける制御可能な生成のための広く使われている手法である。
実験的な成功にもかかわらず、CFGは誘導スケールに敏感なヒューリスティックな線形外挿に依存している。
本稿では、最適化のレンズを通してCFGの原理的な解釈を提供する。
フローマッチングにおける速度場はスムーズな距離関数の列の勾配に対応し, 遅延変数を拡大対象画像集合へ誘導することを示した。
この観点から、標準CFGの定式化は、この勾配の近似であり、予測ギャップ、条件出力と非条件出力の相違がガイダンス感度を制御していることがわかる。
この知見を活かし、多様体制約によるホモトピー最適化としてCFGサンプリングを再構成する。
この定式化は、サンプリング中に漸進勾配降下スキームによって実装される多様体の射影ステップを必要とする。
計算効率と安定性を向上させるため、モデル評価を必要とせず、Anderson Accelerationによる反復的プロセスをさらに強化する。
提案手法は, トレーニング不要かつ一貫した生成忠実度, 迅速なアライメント, ガイダンス尺度に対するロバスト性である。
本研究は,DiT-XL-2-256,Flux,Stable Diffusion 3.5などの大規模モデルにおいて,様々なベンチマークで有効性を検証した。
関連論文リスト
- Enhancing Diffusion Model Guidance through Calibration and Regularization [9.22066257345387]
本稿では,この問題に対処するための2つの補完的貢献を紹介する。
まず,Smooth expected Error(Smooth ECE)に基づく微分可能なキャリブレーション目標を提案する。
第2に,再訓練を必要とせず,市販の分類器で動作可能なサンプリング誘導手法を開発した。
論文 参考訳(メタデータ) (2025-11-08T04:23:42Z) - Rectified-CFG++ for Flow Based Models [26.896426878221718]
本稿では,修正フローの決定論的効率を幾何学的条件付きルールと組み合わせた適応型予測器・補正器ガイダンスであるRectified-C++を提案する。
大規模なテキスト・ツー・イメージモデル(Flux, Stable Diffusion 3/3.5, Lumina)の実験では、Rectified-C++がベンチマークデータセットの標準CFGを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-10-09T00:00:47Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z) - Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models [27.640009920058187]
CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
論文 参考訳(メタデータ) (2024-10-03T12:06:29Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。