論文の概要: InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2404.02733v2
- Date: Thu, 4 Apr 2024 19:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 11:37:03.521456
- Title: InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation
- Title(参考訳): InstantStyle: テキスト・ツー・イメージ生成におけるスタイル保存に向けたフリーランチ
- Authors: Haofan Wang, Matteo Spinelli, Qixun Wang, Xu Bai, Zekui Qin, Anthony Chen,
- Abstract要約: スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
- 参考スコア(独自算出の注目度): 5.364489068722223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tuning-free diffusion-based models have demonstrated significant potential in the realm of image personalization and customization. However, despite this notable progress, current models continue to grapple with several complex challenges in producing style-consistent image generation. Firstly, the concept of style is inherently underdetermined, encompassing a multitude of elements such as color, material, atmosphere, design, and structure, among others. Secondly, inversion-based methods are prone to style degradation, often resulting in the loss of fine-grained details. Lastly, adapter-based approaches frequently require meticulous weight tuning for each reference image to achieve a balance between style intensity and text controllability. In this paper, we commence by examining several compelling yet frequently overlooked observations. We then proceed to introduce InstantStyle, a framework designed to address these issues through the implementation of two key strategies: 1) A straightforward mechanism that decouples style and content from reference images within the feature space, predicated on the assumption that features within the same space can be either added to or subtracted from one another. 2) The injection of reference image features exclusively into style-specific blocks, thereby preventing style leaks and eschewing the need for cumbersome weight tuning, which often characterizes more parameter-heavy designs.Our work demonstrates superior visual stylization outcomes, striking an optimal balance between the intensity of style and the controllability of textual elements. Our codes will be available at https://github.com/InstantStyle/InstantStyle.
- Abstract(参考訳): 教師なし拡散に基づくモデルは、画像のパーソナライゼーションとカスタマイズの領域において大きな可能性を証明している。
しかし、この顕著な進歩にもかかわらず、現在のモデルは、スタイル一貫性のある画像生成において、いくつかの複雑な課題に悩まされ続けている。
第一に、スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造など多岐にわたる要素を包含している。
第二に、インバージョンベースの手法はスタイル劣化の傾向があり、しばしば細かな詳細が失われる。
最後に、アダプタベースのアプローチでは、スタイル強度とテキスト制御性のバランスをとるために、各参照画像に対して綿密な重み調整が必要となることが多い。
本稿では,いくつかの観測結果から開始するが,見落とされがちな観測結果について考察する。
InstantStyleは2つの主要な戦略の実装を通じてこれらの問題に対処するように設計されたフレームワークです。
1) 特徴空間内の参照画像からスタイルと内容を分離する簡単なメカニズムであって、同一空間内の特徴を互いに付加または減算することができるという仮定に基づいている。
2) 参照画像の特徴をスタイル固有のブロックに限定的に注入することにより,スタイルリークを防止し,よりパラメータの多いデザインを特徴付けるような重み調整の必要性を解消し,スタイルの強度とテキスト要素の制御性との最適なバランスを図りながら,優れた視覚的スタイライズ結果を示す。
私たちのコードはhttps://github.com/InstantStyle/InstantStyleで利用可能です。
関連論文リスト
- InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation [4.1177497612346]
スタイル転送(Style Transfer)は、視覚的なスタイルを取り入れながら、オリジナルの本質を維持するイメージを作成するために設計された革新的なプロセスである。
InstantStyle-Plusは、ターゲットスタイルをシームレスに統合しながら、オリジナルコンテンツの整合性を優先するアプローチである。
論文 参考訳(メタデータ) (2024-06-30T18:05:33Z) - StyleMaster: Towards Flexible Stylized Image Generation with Diffusion Models [42.45078883553856]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像に基づいて画像を生成することを目的としている。
本稿では,事前学習した安定拡散を利用して,StyleMasterと呼ばれる新しいフレームワークを提案する。
2つの目的関数を導入し、モデルを最適化し、損失を減らし、セマンティクスとスタイルの一貫性をさらに強化する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。
提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。
提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-19T11:48:35Z) - Visual Style Prompting with Swapping Self-Attention [26.511518230332758]
本稿では,特定のスタイル要素やニュアンスを維持しつつ,多様な画像を生成する新しい手法を提案する。
denoisingプロセスの間は、クエリを元の機能から保持し、キーと値を、後期の自己アテンション層にある参照機能と交換します。
提案手法は既存のアプローチよりも優れており,参照のスタイルを最もよく反映し,得られた画像がテキストのプロンプトに最も正確に一致することを保証する。
論文 参考訳(メタデータ) (2024-02-20T12:51:17Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - Portrait Diffusion: Training-free Face Stylization with
Chain-of-Painting [64.43760427752532]
顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。
現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。
本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:48:35Z) - InstaStyle: Inversion Noise of a Stylized Image is Secretly a Style Adviser [19.466860144772674]
本稿では,単一の参照画像のみを用いて高忠実度スタイリング画像を生成する手法であるInstaStyleを提案する。
提案手法は,スタイリングされた参照画像からの逆ノイズが本質的にスタイル信号を運ぶことに基づく。
本稿では,参照画像のスタイル記述の精度を高めるために,プロンプトリファインメントによる学習可能なスタイルトークンを提案する。
論文 参考訳(メタデータ) (2023-11-25T14:38:54Z) - StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image
Generation [97.24936247688824]
本稿では,テキストプロンプトとスタイル参照画像を入力として取り込む,スタイル付画像生成のためのLoRAフリーな手法を提案する。
StyleAdapterは、プロンプトの内容にマッチする高品質な画像を生成し、単一のパスで参照のスタイルを採用することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。