論文の概要: StyleMaster: Towards Flexible Stylized Image Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.15287v1
- Date: Fri, 24 May 2024 07:19:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 15:40:48.395897
- Title: StyleMaster: Towards Flexible Stylized Image Generation with Diffusion Models
- Title(参考訳): StyleMaster: 拡散モデルによるフレキシブルスティル化画像生成を目指して
- Authors: Chengming Xu, Kai Hu, Donghao Luo, Jiangning Zhang, Wei Li, Yanhao Ge, Chengjie Wang,
- Abstract要約: Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像に基づいて画像を生成することを目的としている。
本稿では,事前学習した安定拡散を利用して,StyleMasterと呼ばれる新しいフレームワークを提案する。
2つの目的関数を導入し、モデルを最適化し、損失を減らし、セマンティクスとスタイルの一貫性をさらに強化する。
- 参考スコア(独自算出の注目度): 42.45078883553856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stylized Text-to-Image Generation (STIG) aims to generate images based on text prompts and style reference images. We in this paper propose a novel framework dubbed as StyleMaster for this task by leveraging pretrained Stable Diffusion (SD), which tries to solve the previous problems such as insufficient style and inconsistent semantics. The enhancement lies in two novel module, namely multi-source style embedder and dynamic attention adapter. In order to provide SD with better style embeddings, we propose the multi-source style embedder considers both global and local level visual information along with textual one, which provide both complementary style-related and semantic-related knowledge. Additionally, aiming for better balance between the adaptor capacity and semantic control, the proposed dynamic attention adapter is applied to the diffusion UNet in which adaptation weights are dynamically calculated based on the style embeddings. Two objective functions are introduced to optimize the model together with denoising loss, which can further enhance semantic and style consistency. Extensive experiments demonstrate the superiority of StyleMaster over existing methods, rendering images with variable target styles while successfully maintaining the semantic information from the text prompts.
- Abstract(参考訳): Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像に基づいて画像を生成することを目的としている。
本稿では、事前訓練された安定拡散(SD)を利用して、このタスクのためにStyleMasterと呼ばれる新しいフレームワークを提案する。
この拡張は、マルチソーススタイルの埋め込みと動的アテンションアダプタという、2つの新しいモジュールに含まれている。
SDにより良いスタイル埋め込みを提供するために,テキスト情報とともにグローバル・ローカル・レベルの視覚情報も考慮し,補完的なスタイル関連知識と意味関連知識を提供するマルチソース・スタイル埋め込み手法を提案する。
さらに,適応器のキャパシティとセマンティックコントロールのバランスを改善することを目的として,提案した動的アテンションアダプタを,スタイル埋め込みに基づいて適応重みを動的に計算する拡散UNetに適用した。
2つの目的関数を導入し、モデルを最適化し、損失を減らし、セマンティクスとスタイルの一貫性をさらに強化する。
大規模な実験では、既存の方法よりもStyleMasterの方が優れており、テキストプロンプトからのセマンティック情報をうまく維持しながら、可変ターゲットスタイルの画像をレンダリングする。
関連論文リスト
- StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer [9.010012117838725]
StyleMambaは、テキストプロンプトを対応する視覚スタイルに変換する効率的な画像スタイル転送フレームワークである。
既存のテキストガイドによるスタイリングには、数百のトレーニングイテレーションが必要で、多くのコンピューティングリソースが必要です。
論文 参考訳(メタデータ) (2024-05-08T12:57:53Z) - StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion Models [35.732715025002705]
StyleInject(スタイルインジェクション)は、テキスト・ツー・イメージ・モデルに適した特殊な微調整アプローチである。
入力信号の特性に基づいて視覚特徴のばらつきを調整することで、様々なスタイルに適応する。
これは、コミュニティが調整した様々な高度な生成モデルから学習し、拡張するのに特に有効である。
論文 参考訳(メタデータ) (2024-01-25T04:53:03Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style
Adapter [74.68550659331405]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image
Generation [97.24936247688824]
本稿では,テキストプロンプトとスタイル参照画像を入力として取り込む,スタイル付画像生成のためのLoRAフリーな手法を提案する。
StyleAdapterは、プロンプトの内容にマッチする高品質な画像を生成し、単一のパスで参照のスタイルを採用することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。