論文の概要: CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization
- arxiv url: http://arxiv.org/abs/2602.20721v1
- Date: Tue, 24 Feb 2026 09:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.696573
- Title: CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization
- Title(参考訳): CleanStyle: テキストから画像へのスティル化のためのプラグアンドプレイスタイルのコンディショニング
- Authors: Xiaoman Feng, Mingkun Lei, Yang Wang, Dingwen Fu, Chi Zhang,
- Abstract要約: CleanStyleはプラグイン・アンド・プレイのフレームワークで、コンテンツ関連のノイズをリトレーニングすることなく、スタイルの埋め込みからフィルタリングする。
CleanStyleSVDは、タイムアウェアな指数スケジュールを使用して、テールコンポーネントを動的に抑制する。
SS-CFGはテールコンポーネントを再利用し、スタイル対応の無条件入力を構築する。
- 参考スコア(独自算出の注目度): 5.300721419484575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Style transfer in diffusion models enables controllable visual generation by injecting the style of a reference image. However, recent encoder-based methods, while efficient and tuning-free, often suffer from content leakage, where semantic elements from the style image undesirably appear in the output, impairing prompt fidelity and stylistic consistency. In this work, we introduce CleanStyle, a plug-and-play framework that filters out content-related noise from the style embedding without retraining. Motivated by empirical analysis, we observe that such leakage predominantly stems from the tail components of the style embedding, which are isolated via Singular Value Decomposition (SVD). To address this, we propose CleanStyleSVD (CS-SVD), which dynamically suppresses tail components using a time-aware exponential schedule, providing clean, style-preserving conditional embeddings throughout the denoising process. Furthermore, we present Style-Specific Classifier-Free Guidance (SS-CFG), which reuses the suppressed tail components to construct style-aware unconditional inputs. Unlike conventional methods that use generic negative embeddings (e.g., zero vectors), SS-CFG introduces targeted negative signals that reflect style-specific but prompt-irrelevant visual elements. This enables the model to effectively suppress these distracting patterns during generation, thereby improving prompt fidelity and enhancing the overall visual quality of stylized outputs. Our approach is lightweight, interpretable, and can be seamlessly integrated into existing encoder-based diffusion models without retraining. Extensive experiments demonstrate that CleanStyle substantially reduces content leakage, improves stylization quality and improves prompt alignment across a wide range of style references and prompts.
- Abstract(参考訳): 拡散モデルにおけるスタイル転送は、参照画像のスタイルを注入することにより、制御可能な視覚生成を可能にする。
しかし、最近のエンコーダベースの手法は、効率的でチューニングが不要なものの、しばしばコンテンツリークに悩まされ、スタイルイメージのセマンティック要素が出力に好ましくないように現れ、迅速な忠実さとスタイリスティックな一貫性を損なう。
そこで本研究では,CleanStyleというプラグイン・アンド・プレイ・フレームワークを紹介した。
経験的分析により,そのような漏洩は主に,Singular Value Decomposition (SVD) を介して分離されたスタイル埋め込みのテール成分に由来することがわかった。
そこで本研究では,時間認識型指数スケジュールを用いてテールコンポーネントを動的に抑制し,クリーンでスタイルを保った条件付き埋め込みを実現するCleanStyleSVD(CS-SVD)を提案する。
さらに、抑圧されたテールコンポーネントを再利用して、スタイル対応の無条件入力を構築するSS-CFG(Style-Specific Classifier-Free Guidance)を提案する。
一般的な負の埋め込み(例えばゼロベクトル)を使う従来の手法とは異なり、SS-CFGは、スタイル固有のが急激な視覚要素を反映する標的の負の信号を導入する。
これにより、モデルが生成中のこれらの注意パターンを効果的に抑制し、即時忠実性を改善し、スタイリングされた出力の全体的な視覚的品質を向上させることができる。
我々のアプローチは軽量で解釈可能であり、再学習なしに既存のエンコーダベースの拡散モデルにシームレスに統合できる。
広範な実験により、CleanStyleはコンテンツのリークを大幅に減らし、スタイリゼーションの品質を改善し、幅広いスタイル参照やプロンプトの迅速なアライメントを改善することが示されている。
関連論文リスト
- Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation [18.601789249339014]
中国のフォント生成は、少数の参照画像のみを使用して、ターゲットスタイルで新しい文字を合成することを目的としている。
既存のアプローチは機能レベルのアンタングルのみを達成するため、ジェネレータはこれらの機能を再アンタングルすることができる。
本研究では,2つのチャンネルからコンテンツとスタイル情報を受信する構造レベル分散拡散モデルを提案する。
論文 参考訳(メタデータ) (2026-02-21T15:41:06Z) - Sissi: Zero-shot Style-guided Image Synthesis via Semantic-style Integration [57.02757226679549]
本研究では,文脈内学習タスクとしてスタイル誘導合成を再構成する学習自由フレームワークを提案する。
セマンティック・スタイル統合(DSSI)機構を提案する。
実験により,本手法はセマンティックスタイルのバランスと視覚的品質に優れた高忠実度スタイリングを実現することが示された。
論文 参考訳(メタデータ) (2026-01-10T16:01:14Z) - FantasyStyle: Controllable Stylized Distillation for 3D Gaussian Splatting [7.778588010132252]
3DGSベースのスタイル転送フレームワークである textbfFantasyStyle を導入する。
我々は,多視点雑音遅延に3Dフィルタを適用し,低周波成分を選択的に低減し,先行競合を緩和することで,クロスビューの整合性を向上させる。
提案手法は最先端の手法を一貫して上回り,様々な場面やスタイルで高いスタイリゼーション品質と視覚的リアリズムを実現する。
論文 参考訳(メタデータ) (2025-08-11T16:11:08Z) - Only-Style: Stylistic Consistency in Image Generation without Content Leakage [21.68241134664501]
Only-Styleは、スタイリスティックな一貫性を維持しつつ、セマンティックなコヒーレントな方法でコンテンツの漏洩を軽減するために設計された方法である。
Only-Styleは、推論中にコンテンツのリークをローカライズすることで、スタイルアライメントプロセスを制御するパラメータの適応的なチューニングを可能にする。
提案手法は,多種多様なインスタンスにまたがる広範囲な評価により,最先端の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-06-11T16:33:09Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control [43.96257216397601]
拡散モデルの学習自由なパーソナライズのための新しいプラグアンドプレイソリューションを提案する。
RB-Modulationは、スタイル記述子が所望の属性をエンコードする新しい最適コントローラ上に構築されている。
クロスアテンションに基づく特徴集約方式により、RB変調は参照画像から内容とスタイルを分離することができる。
論文 参考訳(メタデータ) (2024-05-27T17:51:08Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。