論文の概要: Guiding a Diffusion Model by Swapping Its Tokens
- arxiv url: http://arxiv.org/abs/2604.08048v1
- Date: Thu, 09 Apr 2026 09:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.85327
- Title: Guiding a Diffusion Model by Swapping Its Tokens
- Title(参考訳): トケインをスワップすることで拡散モデルを導く
- Authors: Weijia Zhang, Yuehao Liu, Shanyan Guan, Wu Ran, Yanhao Ge, Wei Li, Chao Ma,
- Abstract要約: 本研究では,条件生成と非条件生成の両方に対して,CFGライクなガイダンスを実現するための簡単な手法を提案する。
鍵となるアイデアは、単純なトークンスワップ操作によって混乱した予測を生成することである。
提案手法はトークン潜伏剤を選択的に交換し,分解し,摂動の制御をきめ細かなものにする。
- 参考スコア(独自算出の注目度): 16.588428780117752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-Free Guidance (CFG) is a widely used inference-time technique to boost the image quality of diffusion models. Yet, its reliance on text conditions prevents its use in unconditional generation. We propose a simple method to enable CFG-like guidance for both conditional and unconditional generation. The key idea is to generate a perturbed prediction via simple token swap operations, and use the direction between it and the clean prediction to steer sampling towards higher-fidelity distributions. In practice, we swap pairs of most semantically dissimilar token latents in either spatial or channel dimensions. Unlike existing methods that apply perturbation in a global or less constrained manner, our approach selectively exchanges and recomposes token latents, allowing finer control over perturbation and its influence on generated samples. Experiments on MS-COCO 2014, MS-COCO 2017, and ImageNet datasets demonstrate that the proposed Self-Swap Guidance (SSG), when applied to popular diffusion models, outperforms previous condition-free methods in image fidelity and prompt alignment under different set-ups. Its fine-grained perturbation granularity also improves robustness, reducing side-effects across a wider range of perturbation strengths. Overall, SSG extends CFG to a broader scope of applications including both conditional and unconditional generation, and can be readily inserted into any diffusion model as a plug-in to gain immediate improvements.
- Abstract(参考訳): Classifier-Free Guidance (CFG) は拡散モデルの画質を高めるために広く使われている推論時間技術である。
しかし、テキスト条件に依存しているため、非条件生成では使用できない。
本研究では,条件生成と非条件生成の両方に対して,CFGライクなガイダンスを実現するための簡単な手法を提案する。
鍵となるアイデアは、単純なトークンスワップ操作によって摂動予測を生成し、それとクリーンな予測の間の方向を使って、サンプリングを高忠実度分布に向けて操ることである。
実際には、最も意味的に異なるトークンラテントのペアを空間次元またはチャネル次元で交換する。
摂動を大域的あるいは少なからぬ制約で適用する既存の方法とは異なり、我々の手法はトークン潜伏剤を選択的に交換し、分解し、摂動のより細かい制御を可能にする。
MS-COCO 2014、MS-COCO 2017、ImageNetデータセットによる実験では、一般的な拡散モデルに適用された提案されたセルフスワップガイダンス(SSG)が、画像の忠実性において以前の条件のない手法より優れ、異なるセットアップの下で即時アライメントが優れていることが示されている。
その微細な摂動の粒度は、堅牢性も向上し、幅広い摂動強度にわたる副作用を減少させる。
全体として、SSGはCFGを条件生成と非条件生成の両方を含む広い範囲のアプリケーションに拡張し、プラグインとして任意の拡散モデルに簡単に挿入して即時改善することができる。
関連論文リスト
- Feedback Guidance of Diffusion Models [14.162420300295365]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。
本稿では,FBG(FeedBack Guidance)を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:46:32Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking [15.052244821404079]
本稿では,モデルの予測信頼度を利用して非条件入力を調整する新しい手法であるAdaptive-Free Guidance (A-CFG)を紹介する。
A-CFGは、より効果的なガイダンスにつながる曖昧さの領域に焦点を当てている。
多様な言語生成ベンチマークの実験では、A-CFGは標準CFGよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-26T16:40:22Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z) - Rectified Diffusion Guidance for Conditional Generation [94.83538269086613]
CFGの背後にある理論を再検討し、不適切な組合せ係数(textiti.e.)が生成分布を期待的にシフトさせることを厳密に確認する。
提案手法は, 強みを考慮すれば, textbftextitform ソリューションが有効であることを示す。
実世界のデータに関する実証的な証拠は、我々の設計と既存の最先端拡散モデルとの整合性を実証している。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - Few-Shot Image Generation by Conditional Relaxing Diffusion Inversion [37.18537753482751]
条件拡散緩和インバージョン(CRDI)は、合成画像生成における分布の多様性を高めるために設計されている。
CRDIはいくつかのサンプルに基づいた微調整を頼りにしていない。
ターゲットの画像インスタンスの再構築と、数ショットの学習による多様性の拡大に重点を置いている。
論文 参考訳(メタデータ) (2024-07-09T21:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。