論文の概要: DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization
- arxiv url: http://arxiv.org/abs/2211.10682v2
- Date: Mon, 18 Dec 2023 05:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 03:13:43.378816
- Title: DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization
- Title(参考訳): DiffStyler:テキスト駆動画像スティル化のための制御可能なデュアル拡散
- Authors: Nisha Huang, Yuxin Zhang, Fan Tang, Chongyang Ma, Haibin Huang, Yong
Zhang, Weiming Dong, Changsheng Xu
- Abstract要約: DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
- 参考スコア(独自算出の注目度): 66.42741426640633
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the impressive results of arbitrary image-guided style transfer
methods, text-driven image stylization has recently been proposed for
transferring a natural image into a stylized one according to textual
descriptions of the target style provided by the user. Unlike the previous
image-to-image transfer approaches, text-guided stylization progress provides
users with a more precise and intuitive way to express the desired style.
However, the huge discrepancy between cross-modal inputs/outputs makes it
challenging to conduct text-driven image stylization in a typical feed-forward
CNN pipeline. In this paper, we present DiffStyler, a dual diffusion processing
architecture to control the balance between the content and style of the
diffused results. The cross-modal style information can be easily integrated as
guidance during the diffusion process step-by-step. Furthermore, we propose a
content image-based learnable noise on which the reverse denoising process is
based, enabling the stylization results to better preserve the structure
information of the content image. We validate the proposed DiffStyler beyond
the baseline methods through extensive qualitative and quantitative
experiments. Code is available at
\url{https://github.com/haha-lisa/Diffstyler}.
- Abstract(参考訳): 任意の画像誘導スタイル転送方式の印象的な結果にもかかわらず、ユーザが提供する対象スタイルのテキスト記述に従って、自然画像からスタイリッシュな画像に変換するためのテキスト駆動画像スタイライゼーションが最近提案されている。
従来の画像間転送アプローチとは異なり、テキスト誘導型スタイリゼーションの進歩により、ユーザーはより正確で直感的に好みのスタイルを表現することができる。
しかしながら、クロスモーダル入力/出力間の大きな不一致は、典型的なフィードフォワードcnnパイプラインでテキスト駆動のイメージスタイライゼーションを行うことを困難にしている。
本稿では,拡散結果の内容とスタイルのバランスを制御する2重拡散処理アーキテクチャdiffstylerを提案する。
拡散過程のステップバイステップにおいて、クロスモーダルスタイル情報をガイダンスとして容易に統合することができる。
さらに,逆雑音化処理に基づくコンテンツ画像に基づく学習可能ノイズを提案し,スタイライゼーション結果がコンテンツ画像の構造情報をより良く保存できることを示す。
提案したDiffStylerは, 定性的, 定量的な実験により, ベースライン法を超えて検証する。
コードは \url{https://github.com/haha-lisa/diffstyler} で入手できる。
関連論文リスト
- D2Styler: Advancing Arbitrary Style Transfer with Discrete Diffusion Methods [2.468658581089448]
D$2$Styler (Discrete Diffusion Styler) と呼ばれる新しいフレームワークを提案する。
本手法では,アダプティブインスタンス正規化(AdaIN)機能を逆拡散過程のコンテキストガイドとして用いる。
実験により、D$2$Stylerは高品質なスタイル変換画像を生成することが示された。
論文 参考訳(メタデータ) (2024-08-07T05:47:06Z) - Artist: Aesthetically Controllable Text-Driven Stylization without Training [19.5597806965592]
テキスト駆動型スタイリングのための事前学習拡散モデルのコンテンツとスタイル生成を審美的に制御する,トレーニング不要なアプローチである textbfArtist を導入する。
私たちのキーとなる洞察は、コンテンツとスタイルを分離した拡散プロセスに分割し、情報を共有することです。
本手法は, 審美レベルのスタイリゼーション要件の達成, コンテンツイメージの複雑な詳細の保存, スタイルプロンプトの整合性に優れる。
論文 参考訳(メタデータ) (2024-07-22T17:58:05Z) - StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer [9.010012117838725]
StyleMambaは、テキストプロンプトを対応する視覚スタイルに変換する効率的な画像スタイル転送フレームワークである。
既存のテキストガイドによるスタイリングには、数百のトレーニングイテレーションが必要で、多くのコンピューティングリソースが必要です。
論文 参考訳(メタデータ) (2024-05-08T12:57:53Z) - FreeStyle: Free Lunch for Text-guided Style Transfer using Diffusion Models [11.401299303276016]
我々は,事前学習した大拡散モデルに基づいて構築された,革新的なスタイル転送手法であるFreeStyleを紹介する。
本手法では,所望のスタイルのテキスト記述のみでスタイル転送が可能であり,スタイル画像の必要がなくなる。
実験の結果,様々なコンテンツ画像とスタイルのテキストプロンプトにまたがって,提案手法の高品質な合成と忠実さを実証した。
論文 参考訳(メタデータ) (2024-01-28T12:00:31Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。