論文の概要: StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image
Generation
- arxiv url: http://arxiv.org/abs/2309.01770v1
- Date: Mon, 4 Sep 2023 19:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:32:18.329914
- Title: StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image
Generation
- Title(参考訳): StyleAdapter:スティル化画像生成のためのシングルパスLORAフリーモデル
- Authors: Zhouxia Wang, Xintao Wang, Liangbin Xie, Zhongang Qi, Ying Shan,
Wenping Wang, and Ping Luo
- Abstract要約: 本稿では,テキストプロンプトとスタイル参照画像を入力として取り込む,スタイル付画像生成のためのLoRAフリーな手法を提案する。
StyleAdapterは、プロンプトの内容にマッチする高品質な画像を生成し、単一のパスで参照のスタイルを採用することができる。
- 参考スコア(独自算出の注目度): 97.24936247688824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a LoRA-free method for stylized image generation that
takes a text prompt and style reference images as inputs and produces an output
image in a single pass. Unlike existing methods that rely on training a
separate LoRA for each style, our method can adapt to various styles with a
unified model. However, this poses two challenges: 1) the prompt loses
controllability over the generated content, and 2) the output image inherits
both the semantic and style features of the style reference image, compromising
its content fidelity. To address these challenges, we introduce StyleAdapter, a
model that comprises two components: a two-path cross-attention module (TPCA)
and three decoupling strategies. These components enable our model to process
the prompt and style reference features separately and reduce the strong
coupling between the semantic and style information in the style references.
StyleAdapter can generate high-quality images that match the content of the
prompts and adopt the style of the references (even for unseen styles) in a
single pass, which is more flexible and efficient than previous methods.
Experiments have been conducted to demonstrate the superiority of our method
over previous works.
- Abstract(参考訳): 本稿では,テキストプロンプトとスタイル参照画像を入力とし,単一のパスで出力画像を生成する,スタイル化画像生成のためのloraフリー手法を提案する。
各スタイルでLoRAを個別にトレーニングする既存の方法とは異なり、我々の方法は統一されたモデルで様々なスタイルに適応できる。
しかし、これは2つの課題をもたらす。
1)プロンプトは生成されたコンテンツに対する制御性を失い、
2) 出力画像はスタイル参照画像の意味的特徴とスタイル的特徴の両方を継承し,その内容の忠実さを補完する。
これらの課題に対処するために,2つのコンポーネントからなるモデルであるstyleadapterを紹介する。
これらのコンポーネントにより、モデルがプロンプトおよびスタイル参照機能を別々に処理し、スタイル参照におけるセマンティック情報とスタイル情報との強い結合を低減できます。
styleadapterはプロンプトの内容にマッチする高品質なイメージを生成し、単一のパスで参照のスタイル(目に見えないスタイルであっても)を採用することができる。
本手法の先行研究よりも優れていることを示す実験を行った。
関連論文リスト
- Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style
Adapter [74.68550659331405]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Any-to-Any Style Transfer: Making Picasso and Da Vinci Collaborate [58.83278629019384]
スタイル転送は、コンテンツ参照のために、ある画像のスタイルを他の画像へのスタイル参照にレンダリングすることを目的としている。
既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルな方法で適用するか、あるいは、スタイルイメージのローカル色とテクスチャを、事前に定義された方法でコンテンツに移行するかのいずれかである。
本稿では,Any-to-Any Style Transferを提案する。Any-to-Any Style Transferは,スタイル画像中の領域のスタイルを対話的に選択し,所定のコンテンツ領域に適用することができる。
論文 参考訳(メタデータ) (2023-04-19T15:15:36Z) - Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image
Generation [13.894251782142584]
GLIDE や DALLE-2 のような拡散ベースのテキスト・画像生成モデルは近年広く成功している。
本稿では,参照画像でガイドされた任意のスタイルを用いた画像生成を支援する新しいスタイルガイダンス手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T20:52:57Z) - MultiStyleGAN: Multiple One-shot Image Stylizations using a Single GAN [14.373091259972666]
一般的なシナリオはワンショットスタイリングであり、参照スタイルごとに1つの例しか使用できない。
JoJoGANファインチューンのようなワンショットスタイリングのための最近のアプローチは、単一のスタイル参照画像上に事前訓練されたStyleGAN2ジェネレータである。
単一発電機を微調整することで,複数のスタイルを同時に生成できるMultiStyleGAN法を提案する。
論文 参考訳(メタデータ) (2022-10-08T23:05:29Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。