論文の概要: FreeStyle: Free Lunch for Text-guided Style Transfer using Diffusion
Models
- arxiv url: http://arxiv.org/abs/2401.15636v1
- Date: Sun, 28 Jan 2024 12:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:14:52.338054
- Title: FreeStyle: Free Lunch for Text-guided Style Transfer using Diffusion
Models
- Title(参考訳): FreeStyle:拡散モデルを用いたテキストガイド型転送のためのフリーランチ
- Authors: Feihong He and Gang Li and Mengyuan Zhang and Leilei Yan and Lingyu Si
and Fanzhang Li
- Abstract要約: 我々は,事前学習した大拡散モデルに基づいて構築された,革新的なスタイル転送手法であるFreeStyleを紹介する。
本手法では,所望のスタイルのテキスト記述のみでスタイル転送が可能であり,スタイル画像の必要がなくなる。
- 参考スコア(独自算出の注目度): 6.7205979534794285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of generative diffusion models has significantly
advanced the field of style transfer. However, most current style transfer
methods based on diffusion models typically involve a slow iterative
optimization process, e.g., model fine-tuning and textual inversion of style
concept. In this paper, we introduce FreeStyle, an innovative style transfer
method built upon a pre-trained large diffusion model, requiring no further
optimization. Besides, our method enables style transfer only through a text
description of the desired style, eliminating the necessity of style images.
Specifically, we propose a dual-stream encoder and single-stream decoder
architecture, replacing the conventional U-Net in diffusion models. In the
dual-stream encoder, two distinct branches take the content image and style
text prompt as inputs, achieving content and style decoupling. In the decoder,
we further modulate features from the dual streams based on a given content
image and the corresponding style text prompt for precise style transfer. Our
experimental results demonstrate high-quality synthesis and fidelity of our
method across various content images and style text prompts. The code and more
results are available at our project
website:https://freestylefreelunch.github.io/.
- Abstract(参考訳): 生成拡散モデルの急速な発展は、スタイル転移の分野を著しく前進させた。
しかしながら、拡散モデルに基づく現在のスタイル転送手法の多くは、例えば、モデルファインチューニングやスタイル概念のテキスト反転といった、遅い反復最適化プロセスを含むことが多い。
本稿では,事前学習した大規模拡散モデル上に構築された革新的なスタイル伝達手法であるFreeStyleを紹介する。
また,本手法では,所望のスタイルのテキスト記述のみでスタイル転送が可能であり,スタイル画像の必要がなくなる。
具体的には、拡散モデルにおける従来のu-netを置き換えるデュアルストリームエンコーダとシングルストリームデコーダアーキテクチャを提案する。
デュアルストリームエンコーダでは、コンテンツイメージとスタイルテキストプロンプトを入力として、コンテンツとスタイルの疎結合を実現する。
復号器では、与えられたコンテンツ画像と対応するスタイルテキストプロンプトに基づいて、2重ストリームの特徴を調整し、正確なスタイル転送を行う。
提案手法は,様々なコンテンツ画像とスタイルテキストプロンプトに対して高品質な合成と忠実性を示す。
コードやその他の結果は、プロジェクトのWebサイト(https://freestylefreelunch.github.io/)で公開されている。
関連論文リスト
- D2Styler: Advancing Arbitrary Style Transfer with Discrete Diffusion Methods [2.468658581089448]
D$2$Styler (Discrete Diffusion Styler) と呼ばれる新しいフレームワークを提案する。
本手法では,アダプティブインスタンス正規化(AdaIN)機能を逆拡散過程のコンテキストガイドとして用いる。
実験により、D$2$Stylerは高品質なスタイル変換画像を生成することが示された。
論文 参考訳(メタデータ) (2024-08-07T05:47:06Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Learning Diverse Tone Styles for Image Retouching [73.60013618215328]
本稿では,フローベースアーキテクチャの標準化により,多様な画像のリタッチを学習することを提案する。
ジョイントトレーニングパイプラインは、スタイルエンコーダ、条件付きRetouchNet、イメージトーンスタイル正規化フロー(TSFlow)モジュールで構成される。
提案手法は最先端の手法に対して良好に動作し,多様な結果を生成するのに有効である。
論文 参考訳(メタデータ) (2022-07-12T09:49:21Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。