Fugu-MT 論文翻訳(概要): Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance

論文の概要: Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance

arxiv url: http://arxiv.org/abs/2404.05384v1
Date: Mon, 8 Apr 2024 10:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 18:32:03.690736
Title: Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance
Title（参考訳）: 分数化自由拡散誘導における空間的不整合の再考
Authors: Dazhong Shen, Guanglu Song, Zeyue Xue, Fu-Yun Wang, Yu Liu,
Abstract要約: テキストと画像の拡散モデルにおいて,異なる意味単位に対して指導度をカスタマイズする新しい手法を提案する。我々は,各意味領域のCFG尺度を適応的に調整し,テキスト誘導度を均一なレベルに再スケールする。実験は、様々なテキスト・画像拡散モデルにおける元のCFG戦略よりもS-CFGの方が優れていることを示す。
参考スコア（独自算出の注目度）: 17.29693696084235
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Classifier-Free Guidance (CFG) has been widely used in text-to-image diffusion models, where the CFG scale is introduced to control the strength of text guidance on the whole image space. However, we argue that a global CFG scale results in spatial inconsistency on varying semantic strengths and suboptimal image quality. To address this problem, we present a novel approach, Semantic-aware Classifier-Free Guidance (S-CFG), to customize the guidance degrees for different semantic units in text-to-image diffusion models. Specifically, we first design a training-free semantic segmentation method to partition the latent image into relatively independent semantic regions at each denoising step. In particular, the cross-attention map in the denoising U-net backbone is renormalized for assigning each patch to the corresponding token, while the self-attention map is used to complete the semantic regions. Then, to balance the amplification of diverse semantic units, we adaptively adjust the CFG scales across different semantic regions to rescale the text guidance degrees into a uniform level. Finally, extensive experiments demonstrate the superiority of S-CFG over the original CFG strategy on various text-to-image diffusion models, without requiring any extra training cost. our codes are available at https://github.com/SmilesDZgk/S-CFG.
Abstract（参考訳）: 分類自由誘導(CFG)は、画像空間全体のテキストガイダンスの強度を制御するためにCFGスケールを導入し、テキストから画像への拡散モデルに広く用いられている。しかし,大域的なCFG尺度は,様々な意味的強度と画像品質の空間的矛盾をもたらすと論じる。そこで本研究では,S-CFG (Semantic-Aware Classifier-Free Guidance) という新しい手法を提案する。具体的には、まずトレーニング不要なセマンティックセマンティックセマンティクスを設計し、各デノジングステップにおいて、潜在画像を比較的独立したセマンティクス領域に分割する。特に、デノナイズされたU-netバックボーン内のクロスアテンションマップは、各パッチを対応するトークンに割り当てるために再正規化され、セルフアテンションマップはセマンティック領域の完了に使用される。そして,多様な意味単位の増幅のバランスをとるために,各意味領域にまたがるCFG尺度を適応的に調整し,テキスト誘導度を均一なレベルに再スケールする。最後に、様々なテキスト・画像拡散モデルにおける元のCFG戦略よりもS-CFGの方が、余分な訓練コストを要さずに優れていることを示す。私たちのコードはhttps://github.com/SmilesDZgk/S-CFGで利用可能です。

関連論文リスト

FA-Seg: A Fast and Accurate Diffusion-Based Method for Open-Vocabulary Segmentation [1.4525238046020867]
Open-vocabulary semantic segmentationは、厳密な注釈付きデータセットを必要とせずに、任意のテキストカテゴリからオブジェクトをセグメントすることを目的としている。本稿では,拡散モデルに基づくオープン語彙セグメンテーションのためのトレーニングフリーフレームワークであるFA-Segを提案する。
論文参考訳（メタデータ） (2025-06-29T16:41:41Z)
Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。 1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-07T07:49:31Z)
VOILA: Complexity-Aware Universal Segmentation of CT images by Voxel Interacting with Language [3.562621045863125]
LAnguage法(VOILA)を用いた汎用CT画像分割のためのVOxel Interactingを提案する。ボクセルと言語を共有表現空間に整列し、コサイン類似性に基づいてボクセルを分類する。我々は,フォアグラウンドとバックグラウンドの相違やターゲットボリュームの変化によるクラス不均衡の影響を軽減するために,Voxel-Language Interactionフレームワークを開発した。
論文参考訳（メタデータ） (2025-01-07T03:00:58Z)
HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior [62.04939047885834]
本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
論文参考訳（メタデータ） (2024-11-27T15:22:44Z)
DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。 DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文参考訳（メタデータ） (2024-09-24T06:51:49Z)
Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。 FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-09T18:00:25Z)
Diffusion-based Image Translation with Label Guidance for Domain Adaptive Semantic Segmentation [35.44771460784343]
ターゲットモデル学習のためのソースドメインからターゲットドメインへの変換は、ドメイン適応セマンティックセグメンテーション(DASS)において最も一般的な戦略の1つである。既存の方法は、元の画像と翻訳された画像の間の意味的に一貫性のある局所的な詳細を保存するのに依然として苦労している。本稿では、画像翻訳中にソースドメインラベルを明示的なガイダンスとして用いることにより、この問題に対処する革新的なアプローチを提案する。
論文参考訳（メタデータ） (2023-08-23T18:01:01Z)
Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-21T08:12:28Z)
Unsupervised Domain Adaptation for Semantic Segmentation using One-shot Image-to-Image Translation via Latent Representation Mixing [9.118706387430883]
超高解像度画像のセマンティックセグメンテーションのための新しい教師なし領域適応法を提案する。潜在コンテンツ表現をドメイン間で混合するエンコーダ・デコーダの原理に基づいて,画像から画像への変換パラダイムを提案する。都市間比較実験により,提案手法は最先端領域適応法より優れていることが示された。
論文参考訳（メタデータ） (2022-12-07T18:16:17Z)
Federated Domain Generalization for Image Recognition via Cross-Client Style Transfer [60.70102634957392]
ドメイン一般化(Domain Generalization, DG)は、画像認識においてホットなトピックであり、目に見えないドメインでうまく機能する一般的なモデルを訓練することを目的としている。本稿では,データサンプルを交換することなく,クロスクライアント型転送(CCST)による画像認識のための新しい領域一般化手法を提案する。本手法は2つのDGベンチマーク(PACS, OfficeHome)とFL設定における大規模医用画像データセット(Camelyon17)において,最近のSOTA DG法より優れている。
論文参考訳（メタデータ） (2022-10-03T13:15:55Z)
Diffusion-based Image Translation using Disentangled Style and Content Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。逆拡散中、画像の原内容を維持することはしばしば困難である。本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-09-30T06:44:37Z)
Language-aware Domain Generalization Network for Cross-Scene Hyperspectral Image Classification [15.842081807249416]
ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
論文参考訳（メタデータ） (2022-09-06T10:06:10Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。 AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文参考訳（メタデータ） (2022-02-18T10:14:45Z)
HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。 4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文参考訳（メタデータ） (2021-09-30T14:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。