論文の概要: CLIPstyler: Image Style Transfer with a Single Text Condition
- arxiv url: http://arxiv.org/abs/2112.00374v1
- Date: Wed, 1 Dec 2021 09:48:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 23:01:35.571800
- Title: CLIPstyler: Image Style Transfer with a Single Text Condition
- Title(参考訳): CLIPstyler: 単一テキスト条件によるイメージスタイルの転送
- Authors: Gihyun Kwon, Jong Chul Ye
- Abstract要約: 既存のニューラルスタイル転送法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために参照スタイル画像が必要である。
そこで本稿では,スタイルイメージを必要とせず,所望のスタイルをテキストで記述した上でのみ,スタイル転送を可能にする新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.24876359759408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing neural style transfer methods require reference style images to
transfer texture information of style images to content images. However, in
many practical situations, users may not have reference style images but still
be interested in transferring styles by just imagining them. In order to deal
with such applications, we propose a new framework that enables a style
transfer `without' a style image, but only with a text description of the
desired style. Using the pre-trained text-image embedding model of CLIP, we
demonstrate the modulation of the style of content images only with a single
text condition. Specifically, we propose a patch-wise text-image matching loss
with multiview augmentations for realistic texture transfer. Extensive
experimental results confirmed the successful image style transfer with
realistic textures that reflect semantic query texts.
- Abstract(参考訳): 既存のニューラルスタイル転送法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために参照スタイル画像が必要である。
しかし、多くの現実的な状況において、ユーザーは参照スタイルのイメージを持たず、単に想像するだけでスタイルを転送することに関心がある。
このようなアプリケーションに対処するために,スタイルイメージを「なし」で転送するが,所望のスタイルをテキストで記述できる新しいフレームワークを提案する。
クリップの事前学習されたテキスト画像埋め込みモデルを用いて,単一のテキスト条件でのみコンテンツ画像のスタイルを変調できることを実証する。
具体的には、現実的なテクスチャ転送のためのマルチビュー拡張によるパッチワイズテキスト画像の損失を提案する。
大規模な実験結果から,セマンティッククエリテキストを反映した現実的なテクスチャを用いた画像スタイルの転送に成功した。
関連論文リスト
- Bridging Text and Image for Artist Style Transfer via Contrastive Learning [21.962361974579036]
本稿では,任意のスタイル転送を制御するためのCLAST(Contrastive Learning for Artistic Style Transfer)を提案する。
画像テキストモデルからスタイル記述を効果的に抽出するための教師付きコントラスト訓練戦略を導入する。
また,AdaLNをベースとした新規かつ効率的な状態空間モデルを提案する。
論文 参考訳(メタデータ) (2024-10-12T15:27:57Z) - StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer [9.010012117838725]
StyleMambaは、テキストプロンプトを対応する視覚スタイルに変換する効率的な画像スタイル転送フレームワークである。
既存のテキストガイドによるスタイリングには、数百のトレーニングイテレーションが必要で、多くのコンピューティングリソースが必要です。
論文 参考訳(メタデータ) (2024-05-08T12:57:53Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - Any-to-Any Style Transfer: Making Picasso and Da Vinci Collaborate [58.83278629019384]
スタイル転送は、コンテンツ参照のために、ある画像のスタイルを他の画像へのスタイル参照にレンダリングすることを目的としている。
既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルな方法で適用するか、あるいは、スタイルイメージのローカル色とテクスチャを、事前に定義された方法でコンテンツに移行するかのいずれかである。
本稿では,Any-to-Any Style Transferを提案する。Any-to-Any Style Transferは,スタイル画像中の領域のスタイルを対話的に選択し,所定のコンテンツ領域に適用することができる。
論文 参考訳(メタデータ) (2023-04-19T15:15:36Z) - ITstyler: Image-optimized Text-based Style Transfer [25.60521982742093]
推論段階で最適化を必要としないテキストベースのスタイル転送手法を提案する。
具体的には,テキスト入力を事前学習したVGGネットワークのスタイル空間に変換し,より効果的なスタイルスワップを実現する。
本手法は,任意のテキスト入力スタイルをリアルタイムに転送し,高品質な芸術画像を合成する。
論文 参考訳(メタデータ) (2023-01-26T03:08:43Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - APRNet: Attention-based Pixel-wise Rendering Network for Photo-Realistic
Text Image Generation [11.186226578337125]
スタイル誘導テキスト画像生成は、参照画像の外観を模倣してテキスト画像を合成しようとする。
本稿では,スタイル画像の背景と前景の色パターンをコンテンツ画像に転送し,写真リアルテキスト画像を生成することに焦点を当てる。
論文 参考訳(メタデータ) (2022-03-15T07:48:34Z) - Name Your Style: An Arbitrary Artist-aware Image Style Transfer [38.41608300670523]
任意のスタイル転送を制御するために,高度な画像テキストエンコーダを利用するテキスト駆動型画像スタイル転送(TxST)を提案する。
画像テキストモデルからスタイル記述を効果的に抽出するための対照的なトレーニング戦略を導入する。
我々はまた、スタイルやコンテンツの特徴を融合するクロスアテンションを探求する、新しく効率的なアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2022-02-28T06:21:38Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。