論文の概要: VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By \underline{V}alue \underline{S}ign \underline{F}lip
- arxiv url: http://arxiv.org/abs/2508.10931v1
- Date: Mon, 11 Aug 2025 23:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.583302
- Title: VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By \underline{V}alue \underline{S}ign \underline{F}lip
- Title(参考訳): VSF: \underline{V}alue \underline{S}ign \underline{F}lipによるFew-Step画像生成モデルにおける単純・効率的・効果的な負の誘導
- Authors: Wenqi Guo, Shan Du,
- Abstract要約: Value Sign Flip (VSF) は、数ステップの拡散とフローマッチング画像生成モデルに負のプロンプトガイダンスを組み込む、シンプルで効率的な方法である。
本手法は計算オーバーヘッドを小さくし,MMDiTスタイルのアーキテクチャを効果的に統合する。
- 参考スコア(独自算出の注目度): 8.381844442919538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Value Sign Flip (VSF), a simple and efficient method for incorporating negative prompt guidance in few-step diffusion and flow-matching image generation models. Unlike existing approaches such as classifier-free guidance (CFG), NASA, and NAG, VSF dynamically suppresses undesired content by flipping the sign of attention values from negative prompts. Our method requires only small computational overhead and integrates effectively with MMDiT-style architectures such as Stable Diffusion 3.5 Turbo, as well as cross-attention-based models like Wan. We validate VSF on challenging datasets with complex prompt pairs and demonstrate superior performance in both static image and video generation tasks. Experimental results show that VSF significantly improves negative prompt adherence compared to prior methods in few-step models, and even CFG in non-few-step models, while maintaining competitive image quality. Code and ComfyUI node are available in https://github.com/weathon/VSF/tree/main.
- Abstract(参考訳): 本稿では,数ステップの拡散とフローマッチング画像生成モデルに負のプロンプトガイダンスを組み込む,シンプルで効率的な方法であるValue Sign Flip(VSF)を紹介する。
分類器フリーガイダンス(CFG)やNASA、NAGといった既存のアプローチとは異なり、VSFは負のプロンプトから注目値の符号を反転させることで、望ましくないコンテンツを動的に抑制する。
提案手法は,少ない計算オーバーヘッドしか必要とせず,安定拡散3.5ターボのようなMMDiTスタイルのアーキテクチャや,Wanのようなクロスアテンションベースモデルと効果的に統合する。
複雑なプロンプトペアを持つ挑戦的データセット上でVSFを検証し、静的画像生成タスクとビデオ生成タスクの両方において優れた性能を示す。
実験結果から,VSFは競合画像の品質を維持しつつ,数ステップモデルや非ステップモデルでのCFGよりも負のプロンプトアテンダンスを有意に向上させることが示された。
CodeとComfyUIノードはhttps://github.com/weathon/VSF/tree/mainで入手できる。
関連論文リスト
- Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models [53.087070073434845]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低レイテンシの予算で画像品質が劣化することが多い。
本稿では、各ODEステップに複数の並列勾配評価を組み込むことで、トランケーションエラーを軽減する新しいODEソルバであるEnsemble Parallel Direction Solutionrを提案する。
論文 参考訳(メタデータ) (2025-07-20T03:08:06Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。
既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。
教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2025-05-19T03:45:16Z) - DEFT: Efficient Fine-Tuning of Diffusion Models by Learning the Generalised $h$-transform [44.29325094229024]
DFT(Doob's h-transform Efficient FineTuning)は、非常に小さなネットワークを微調整して条件付き$h$-transformを高速に学習する条件生成手法である。
画像再構成作業では, 自然画像の知覚品質と医用画像の再現性能を最良に保ちながら, 最大1.6$times$の高速化を実現している。
論文 参考訳(メタデータ) (2024-06-03T20:52:34Z) - SpeedUpNet: A Plug-and-Play Adapter Network for Accelerating Text-to-Image Diffusion Models [4.232258232565518]
テキスト・ツー・イメージ拡散モデル(SD)は、広範な計算資源を必要とする一方で、大幅な進歩を示す。
LCM-LoRAは、様々なモデルで一度トレーニング可能で、普遍性を提供するが、アクセラレーション前後で生成されたコンテンツの一貫性を確保することはめったにない。
本稿では,革新的アクセラレーションモジュールであるSpeedUpNet(SUN)を提案し,普遍性と一貫性の課題に対処する。
論文 参考訳(メタデータ) (2023-12-13T09:42:04Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。