論文の概要: Towards a Golden Classifier-Free Guidance Path via Foresight Fixed Point Iterations
- arxiv url: http://arxiv.org/abs/2510.21512v1
- Date: Fri, 24 Oct 2025 14:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.505343
- Title: Towards a Golden Classifier-Free Guidance Path via Foresight Fixed Point Iterations
- Title(参考訳): 前方固定点反復によるゴールデンクラシファイアフリー誘導経路の実現に向けて
- Authors: Kaibo Wang, Jianda Mao, Tong Wu, Yang Xiang,
- Abstract要約: 我々は、条件付きガイダンスを固定点反復として再設定する統一的な視点を提案する。
本稿では,早期拡散段階における長期サブプロブレムの解決を優先するForesight Guidance(FSG)を紹介する。
我々の研究は、条件付きガイダンスのための新しい視点を提供し、適応設計の可能性を解き放つ。
- 参考スコア(独自算出の注目度): 12.366757123129402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-Free Guidance (CFG) is an essential component of text-to-image diffusion models, and understanding and advancing its operational mechanisms remains a central focus of research. Existing approaches stem from divergent theoretical interpretations, thereby limiting the design space and obscuring key design choices. To address this, we propose a unified perspective that reframes conditional guidance as fixed point iterations, seeking to identify a golden path where latents produce consistent outputs under both conditional and unconditional generation. We demonstrate that CFG and its variants constitute a special case of single-step short-interval iteration, which is theoretically proven to exhibit inefficiency. To this end, we introduce Foresight Guidance (FSG), which prioritizes solving longer-interval subproblems in early diffusion stages with increased iterations. Extensive experiments across diverse datasets and model architectures validate the superiority of FSG over state-of-the-art methods in both image quality and computational efficiency. Our work offers novel perspectives for conditional guidance and unlocks the potential of adaptive design.
- Abstract(参考訳): 分類自由誘導(CFG)はテキスト・画像拡散モデルの本質的な構成要素であり、その操作機構の理解と進歩は研究の中心的焦点である。
既存のアプローチは、異なる理論的解釈に由来するため、設計空間を制限し、重要な設計選択を隠蔽する。
そこで本稿では,条件付きガイダンスを固定点反復として再設定する統一的な視点を提案する。
CFGとその変種は、理論的に非効率性を示すことが証明された単一ステップの短区間反復の特別な場合を構成することを示す。
この目的のために,早期拡散段階における長期サブプロブレムの解決を優先し,反復を増大させるForesight Guidance(FSG)を導入する。
多様なデータセットやモデルアーキテクチャにわたる大規模な実験は、画像の品質と計算効率の両方において、最先端の手法よりもFSGの方が優れていることを検証している。
我々の研究は、条件付きガイダンスのための新しい視点を提供し、適応設計の可能性を解き放つ。
関連論文リスト
- ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - G4Seg: Generation for Inexact Segmentation Refinement with Diffusion Models [38.44872934965588]
本稿では, 大規模テキスト・画像モデルを用いて不正確な拡散(IS)課題に取り組むことの問題点について考察する。
我々は,原画像とマスク条件生成画像とのパターンの相違を利用して,粗大なセグメント化改善を容易にする。
論文 参考訳(メタデータ) (2025-06-02T11:05:28Z) - CCD: Continual Consistency Diffusion for Lifelong Generative Modeling [29.568682321463886]
連続拡散生成(CDG)は、連続学習下での拡散モデルの実装方法を再定義する構造化パイプラインである。
拡散特異的な生成力学のクロスタスク解析を基礎としたCDGの第一理論基盤を提案する。
CCDは様々なベンチマークでSOTA性能を実現し,特に重複タスクのシナリオにおける生成指標の改善を図っている。
論文 参考訳(メタデータ) (2025-05-17T09:49:25Z) - REG: Rectified Gradient Guidance for Conditional Diffusion Models [16.275782069986253]
本稿では,既存のガイダンス手法の性能向上を図るために,修正勾配ガイダンス(REG)を提案する。
REGは、事前のガイダンス技術よりも最適なソリューションにより良い近似を提供する。
クラス条件の画像ネットとテキスト・ツー・イメージ生成タスクの実験では、REGは一貫してFIDとインセプション/CLIPスコアを改善している。
論文 参考訳(メタデータ) (2025-01-31T03:16:18Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - OED: Towards One-stage End-to-End Dynamic Scene Graph Generation [18.374354844446962]
ダイナミックシーングラフ生成(DSGG)は、ビデオの空間時間領域内の視覚的関係を特定することに焦点を当てている。
本稿では,DSGGパイプラインを合理化する一段階のエンドツーエンドフレームワークOEDを提案する。
このフレームワークは、設定された予測問題としてタスクを再構成し、ペアワイズ機能を活用してシーングラフ内の各対象物対を表現する。
論文 参考訳(メタデータ) (2024-05-27T08:18:41Z) - Unified Domain Adaptive Semantic Segmentation [105.05235403072021]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。