論文の概要: StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image
Generation
- arxiv url: http://arxiv.org/abs/2309.01770v1
- Date: Mon, 4 Sep 2023 19:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:32:18.329914
- Title: StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image
Generation
- Title(参考訳): StyleAdapter:スティル化画像生成のためのシングルパスLORAフリーモデル
- Authors: Zhouxia Wang, Xintao Wang, Liangbin Xie, Zhongang Qi, Ying Shan,
Wenping Wang, and Ping Luo
- Abstract要約: 本稿では,テキストプロンプトとスタイル参照画像を入力として取り込む,スタイル付画像生成のためのLoRAフリーな手法を提案する。
StyleAdapterは、プロンプトの内容にマッチする高品質な画像を生成し、単一のパスで参照のスタイルを採用することができる。
- 参考スコア(独自算出の注目度): 97.24936247688824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a LoRA-free method for stylized image generation that
takes a text prompt and style reference images as inputs and produces an output
image in a single pass. Unlike existing methods that rely on training a
separate LoRA for each style, our method can adapt to various styles with a
unified model. However, this poses two challenges: 1) the prompt loses
controllability over the generated content, and 2) the output image inherits
both the semantic and style features of the style reference image, compromising
its content fidelity. To address these challenges, we introduce StyleAdapter, a
model that comprises two components: a two-path cross-attention module (TPCA)
and three decoupling strategies. These components enable our model to process
the prompt and style reference features separately and reduce the strong
coupling between the semantic and style information in the style references.
StyleAdapter can generate high-quality images that match the content of the
prompts and adopt the style of the references (even for unseen styles) in a
single pass, which is more flexible and efficient than previous methods.
Experiments have been conducted to demonstrate the superiority of our method
over previous works.
- Abstract(参考訳): 本稿では,テキストプロンプトとスタイル参照画像を入力とし,単一のパスで出力画像を生成する,スタイル化画像生成のためのloraフリー手法を提案する。
各スタイルでLoRAを個別にトレーニングする既存の方法とは異なり、我々の方法は統一されたモデルで様々なスタイルに適応できる。
しかし、これは2つの課題をもたらす。
1)プロンプトは生成されたコンテンツに対する制御性を失い、
2) 出力画像はスタイル参照画像の意味的特徴とスタイル的特徴の両方を継承し,その内容の忠実さを補完する。
これらの課題に対処するために,2つのコンポーネントからなるモデルであるstyleadapterを紹介する。
これらのコンポーネントにより、モデルがプロンプトおよびスタイル参照機能を別々に処理し、スタイル参照におけるセマンティック情報とスタイル情報との強い結合を低減できます。
styleadapterはプロンプトの内容にマッチする高品質なイメージを生成し、単一のパスで参照のスタイル(目に見えないスタイルであっても)を採用することができる。
本手法の先行研究よりも優れていることを示す実験を行った。
関連論文リスト
- StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。
本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文 参考訳(メタデータ) (2024-08-18T14:27:20Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Visual Style Prompting with Swapping Self-Attention [26.511518230332758]
本稿では,特定のスタイル要素やニュアンスを維持しつつ,多様な画像を生成する新しい手法を提案する。
denoisingプロセスの間は、クエリを元の機能から保持し、キーと値を、後期の自己アテンション層にある参照機能と交換します。
提案手法は既存のアプローチよりも優れており,参照のスタイルを最もよく反映し,得られた画像がテキストのプロンプトに最も正確に一致することを保証する。
論文 参考訳(メタデータ) (2024-02-20T12:51:17Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Translation [10.357474047610172]
本稿では,ユーザが所望の描画スタイルを指定可能なテキスト記述のためのスタイルドローイング生成手法を提案する。
創作過程において、スタイルと内容が分離できないという芸術理論に触発されて、我々はStyleCLIPDrawとして知られる、結合したアプローチを提案する。
人間の評価に基づいて、StyleCLIPDrawによって生成される画像のスタイルは、シーケンシャルアプローチによって強く好まれる。
論文 参考訳(メタデータ) (2022-02-24T21:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。