論文の概要: Guiding Diffusion Models with Semantically Degraded Conditions
- arxiv url: http://arxiv.org/abs/2603.10780v1
- Date: Wed, 11 Mar 2026 13:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.97639
- Title: Guiding Diffusion Models with Semantically Degraded Conditions
- Title(参考訳): 逐次劣化条件付き拡散モデル
- Authors: Shilong Han, Yuming Zhang, Hongxia Wang,
- Abstract要約: 条件劣化誘導(CDG)を提案する。
CDGはnullプロンプトを戦略的に劣化した条件である$boldsymbolc_textdeg$に置き換える。
軽量でプラグアンドプレイのモジュールとして、CDGは構成精度とテキストイメージのアライメントを大幅に改善する。
- 参考スコア(独自算出の注目度): 19.061619300086875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-Free Guidance (CFG) is a cornerstone of modern text-to-image models, yet its reliance on a semantically vacuous null prompt ($\varnothing$) generates a guidance signal prone to geometric entanglement. This is a key factor limiting its precision, leading to well-documented failures in complex compositional tasks. We propose Condition-Degradation Guidance (CDG), a novel paradigm that replaces the null prompt with a strategically degraded condition, $\boldsymbol{c}_{\text{deg}}$. This reframes guidance from a coarse "good vs. null" contrast to a more refined "good vs. almost good" discrimination, thereby compelling the model to capture fine-grained semantic distinctions. We find that tokens in transformer text encoders split into two functional roles: content tokens encoding object semantics, and context-aggregating tokens capturing global context. By selectively degrading only the former, CDG constructs $\boldsymbol{c}_{\text{deg}}$ without external models or training. Validated across diverse architectures including Stable Diffusion 3, FLUX, and Qwen-Image, CDG markedly improves compositional accuracy and text-image alignment. As a lightweight, plug-and-play module, it achieves this with negligible computational overhead. Our work challenges the reliance on static, information-sparse negative samples and establishes a new principle for diffusion guidance: the construction of adaptive, semantically-aware negative samples is critical to achieving precise semantic control. Code is available at https://github.com/Ming-321/Classifier-Degradation-Guidance.
- Abstract(参考訳): 分類自由誘導(CFG)は現代のテキスト・画像モデルの基盤であるが、意味論的に空虚なヌルプロンプト(\varnothing$)に依存しているため、幾何学的絡み合いがちな誘導信号を生成する。
これはその精度を制限する重要な要素であり、複雑な構成タスクにおいて文書化された失敗につながる。
nullプロンプトを戦略的に劣化した条件である$\boldsymbol{c}_{\text{deg}}$に置き換える新しいパラダイムであるCondition-Degradation Guidance (CDG)を提案する。
これは、より洗練された「良い vs. null」差別とは対照的に、粗い「良い vs. null」からのガイダンスを再構成し、よりきめ細かなセマンティックな区別を捉えるようにモデルを説得する。
トランスフォーマーテキストエンコーダのトークンは、オブジェクトセマンティクスをコードするコンテントトークンと、グローバルコンテキストをキャプチャするコンテクスト集約トークンの2つの機能的な役割に分かれている。
前者のみを選択的に分解することで、CDGは外部モデルやトレーニングなしで$\boldsymbol{c}_{\text{deg}}$を構築する。
安定拡散3、FLUX、Qwen-Imageなど様々なアーキテクチャで検証されているCDGは、構成精度とテキストイメージアライメントを大幅に改善する。
軽量でプラグアンドプレイのモジュールとして、計算オーバーヘッドを無視してこれを実現する。
我々の研究は,静的で情報に疎い負のサンプルへの依存に挑戦し,拡散誘導の新たな原則を確立する。適応的,意味的に認識可能な負のサンプルの構築は,正確な意味制御を実現する上で重要である。
コードはhttps://github.com/Ming-321/Classifier-Degradation-Guidanceで入手できる。
関連論文リスト
- What matters for Representation Alignment: Global Information or Spatial Structure? [64.67092609921816]
表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。
我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
論文 参考訳(メタデータ) (2025-12-11T16:39:53Z) - Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings [65.31723739561151]
埋め込みは、エンコードされたセマンティクス内のきめ細かいエンティティやイベントを認識できないかもしれない。
本稿では,新たな評価データセットであるCapRetrievalを導入し,文節は画像キャプションであり,クエリはエンティティやイベントの概念を多種多様な形式でターゲットとするフレーズである。
我々は提案したデータ生成戦略でエンコーダを微調整し、小さな0.1Bエンコーダで最先端の7Bモデルを上回る性能を実現した。
論文 参考訳(メタデータ) (2025-06-10T09:00:33Z) - SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook [9.993066868670283]
本稿では,SGC-VQGANをセマンティックオンラインクラスタリング法で導入し,一貫性セマンティックラーニングによるトークンセマンティクスを強化する。
提案手法は時間空間的に一貫したセマンティック・コードブックを構築し,コードブックの崩壊問題と不均衡なトークン・セマンティクスに対処する。
論文 参考訳(メタデータ) (2024-09-09T23:12:43Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。