論文の概要: SPG: Style-Prompting Guidance for Style-Specific Content Creation
- arxiv url: http://arxiv.org/abs/2508.11476v1
- Date: Fri, 15 Aug 2025 13:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.030542
- Title: SPG: Style-Prompting Guidance for Style-Specific Content Creation
- Title(参考訳): SPG:スタイル特化コンテンツ作成のためのスタイルプロンプトガイダンス
- Authors: Qian Liang, Zichong Chen, Yang Zhou, Hui Huang,
- Abstract要約: スタイルプロンプティングガイダンス(SPG)は、スタイル固有の画像生成のための新しいサンプリング戦略である。
本手法は意味的忠実度とスタイル整合性を両立させる。
- 参考スコア(独自算出の注目度): 10.402278475212828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although recent text-to-image (T2I) diffusion models excel at aligning generated images with textual prompts, controlling the visual style of the output remains a challenging task. In this work, we propose Style-Prompting Guidance (SPG), a novel sampling strategy for style-specific image generation. SPG constructs a style noise vector and leverages its directional deviation from unconditional noise to guide the diffusion process toward the target style distribution. By integrating SPG with Classifier-Free Guidance (CFG), our method achieves both semantic fidelity and style consistency. SPG is simple, robust, and compatible with controllable frameworks like ControlNet and IPAdapter, making it practical and widely applicable. Extensive experiments demonstrate the effectiveness and generality of our approach compared to state-of-the-art methods. Code is available at https://github.com/Rumbling281441/SPG.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ(T2I)拡散モデルは、生成した画像とテキスト・プロンプトとの整合性が優れているが、出力の視覚的スタイルを制御することは難しい課題である。
本研究では,スタイル固有画像生成のための新しいサンプリング手法であるスタイルプロンプトガイダンス(SPG)を提案する。
SPGは、スタイルノイズベクトルを構築し、非条件ノイズからの方向偏差を利用して、拡散過程をターゲットスタイル分布へ導く。
本手法は,SPGとCFGを統合することにより,意味的忠実度とスタイルの整合性を両立させる。
SPGはシンプルで堅牢で、ControlNetやIPAdapterといったコントロール可能なフレームワークと互換性があり、実用的で広く適用できます。
大規模な実験は、最先端の手法と比較して、我々のアプローチの有効性と一般性を示している。
コードはhttps://github.com/Rumbling281441/SPGで入手できる。
関連論文リスト
- FAGStyle: Feature Augmentation on Geodesic Surface for Zero-shot Text-guided Diffusion Image Style Transfer [2.3293561091456283]
イメージスタイル転送の目標は、オリジナルのコンテンツを維持しながら、スタイル参照によってガイドされたイメージをレンダリングすることである。
ゼロショットテキスト誘導拡散画像スタイル転送方式であるFAGStyleを紹介する。
提案手法は,スライディングウィンドウクロップを組み込むことにより,パッチ間の情報インタラクションを向上させる。
論文 参考訳(メタデータ) (2024-08-20T04:20:11Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。