論文の概要: StyleKeeper: Prevent Content Leakage using Negative Visual Query Guidance
- arxiv url: http://arxiv.org/abs/2510.06827v1
- Date: Wed, 08 Oct 2025 09:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.403
- Title: StyleKeeper: Prevent Content Leakage using Negative Visual Query Guidance
- Title(参考訳): StyleKeeper: 負のビジュアルクエリ誘導によるコンテンツ漏洩防止
- Authors: Jaeseok Jeong, Junho Kim, Gayoung Lee, Yunjey Choi, Youngjung Uh,
- Abstract要約: 我々は、望ましくないコンテンツの転送を減らすために、負の視覚的クエリガイダンス(NVQG)を提案する。
NVQGは、視覚的なスタイルのプロンプトから自己注意層のキーと値の代わりにクエリをスワップする意図的なコンテンツリークシナリオによって負のスコアを採用する。
提案手法は,既存のアプローチよりも優位性を示し,参照のスタイルを反映し,得られた画像がテキストプロンプトにマッチすることを保証する。
- 参考スコア(独自算出の注目度): 29.94258634899353
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the domain of text-to-image generation, diffusion models have emerged as powerful tools. Recently, studies on visual prompting, where images are used as prompts, have enabled more precise control over style and content. However, existing methods often suffer from content leakage, where undesired elements of the visual style prompt are transferred along with the intended style. To address this issue, we 1) extend classifier-free guidance (CFG) to utilize swapping self-attention and propose 2) negative visual query guidance (NVQG) to reduce the transfer of unwanted contents. NVQG employs negative score by intentionally simulating content leakage scenarios that swap queries instead of key and values of self-attention layers from visual style prompts. This simple yet effective method significantly reduces content leakage. Furthermore, we provide careful solutions for using a real image as visual style prompts. Through extensive evaluation across various styles and text prompts, our method demonstrates superiority over existing approaches, reflecting the style of the references, and ensuring that resulting images match the text prompts. Our code is available \href{https://github.com/naver-ai/StyleKeeper}{here}.
- Abstract(参考訳): テキスト・画像生成の分野では、拡散モデルは強力なツールとして登場してきた。
近年,画像がプロンプトとして使用される視覚的プロンプトの研究により,スタイルや内容をより正確に制御できるようになった。
しかし、既存の手法は、意図したスタイルとともに、望ましくない視覚的スタイルのプロンプトが転送されるコンテンツリークに悩まされることが多い。
この問題に対処するため、我々は
1) 自己意識の交換を利用した分類器フリーガイダンス(CFG)の拡張と提案
2) 望ましくないコンテンツの転送を減らすための負の視覚的クエリガイダンス(NVQG)。
NVQGは、視覚的なスタイルのプロンプトから自己認識層のキーと値の代わりにクエリをスワップするコンテンツリークシナリオを意図的にシミュレートすることで、ネガティブスコアを採用する。
この単純で効果的な方法は、コンテンツの漏洩を著しく減少させる。
さらに、視覚スタイルのプロンプトとして実際の画像を使用するための注意深い解決策を提供する。
提案手法は,様々なスタイルやテキストプロンプトに対する広範な評価を通じて,既存のアプローチよりも優位性を示し,参照のスタイルを反映し,結果として得られる画像がテキストプロンプトにマッチすることを保証する。
私たちのコードは href{https://github.com/naver-ai/StyleKeeper}{here} で利用可能です。
関連論文リスト
- Negative Token Merging: Image-based Adversarial Feature Guidance [114.65069052244088]
負のトークンマージ(NegToMe)を導入し,画像による逆方向誘導を行う。
NegToMeは、逆拡散過程において、参照と生成された画像の間の視覚的特徴を選択的に分割する。
出力の多様性を大幅に向上させ、著作権のあるコンテンツとの視覚的類似性を34.57%削減する。
論文 参考訳(メタデータ) (2024-12-02T10:06:57Z) - StyleTokenizer: Defining Image Style by a Single Instance for Controlling Diffusion Models [38.31347002106355]
StyleTokenizerはゼロショットスタイルの制御画像生成方法である。
スタイルトークンーを使用してスタイル表現をテキスト表現と整合させる。
このアライメントは、テキストプロンプトの有効性への影響を効果的に最小化する。
論文 参考訳(メタデータ) (2024-09-04T09:01:21Z) - FAGStyle: Feature Augmentation on Geodesic Surface for Zero-shot Text-guided Diffusion Image Style Transfer [2.3293561091456283]
イメージスタイル転送の目標は、オリジナルのコンテンツを維持しながら、スタイル参照によってガイドされたイメージをレンダリングすることである。
ゼロショットテキスト誘導拡散画像スタイル転送方式であるFAGStyleを紹介する。
提案手法は,スライディングウィンドウクロップを組み込むことにより,パッチ間の情報インタラクションを向上させる。
論文 参考訳(メタデータ) (2024-08-20T04:20:11Z) - Visual Style Prompting with Swapping Self-Attention [26.511518230332758]
本稿では,特定のスタイル要素やニュアンスを維持しつつ,多様な画像を生成する新しい手法を提案する。
denoisingプロセスの間は、クエリを元の機能から保持し、キーと値を、後期の自己アテンション層にある参照機能と交換します。
提案手法は既存のアプローチよりも優れており,参照のスタイルを最もよく反映し,得られた画像がテキストのプロンプトに最も正確に一致することを保証する。
論文 参考訳(メタデータ) (2024-02-20T12:51:17Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。