論文の概要: Language-Driven Image Style Transfer
- arxiv url: http://arxiv.org/abs/2106.00178v1
- Date: Tue, 1 Jun 2021 01:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:21:04.818641
- Title: Language-Driven Image Style Transfer
- Title(参考訳): 言語駆動イメージスタイル転送
- Authors: Tsu-Jui Fu, Xin Eric Wang, William Yang Wang
- Abstract要約: 我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
- 参考スコア(独自算出の注目度): 72.36790598245096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite having promising results, style transfer, which requires preparing
style images in advance, may result in lack of creativity and accessibility.
Following human instruction, on the other hand, is the most natural way to
perform artistic style transfer that can significantly improve controllability
for visual effect applications. We introduce a new task -- language-driven
image style transfer (\texttt{LDIST}) -- to manipulate the style of a content
image, guided by a text. We propose contrastive language visual artist (CLVA)
that learns to extract visual semantics from style instructions and accomplish
\texttt{LDIST} by the patch-wise style discriminator. The discriminator
considers the correlation between language and patches of style images or
transferred results to jointly embed style instructions. CLVA further compares
contrastive pairs of content image and style instruction to improve the mutual
relativeness between transfer results. The transferred results from the same
content image can preserve consistent content structures. Besides, they should
present analogous style patterns from style instructions that contain similar
visual semantics. The experiments show that our CLVA is effective and achieves
superb transferred results on \texttt{LDIST}.
- Abstract(参考訳): 期待できる結果を得たにもかかわらず、事前にスタイルイメージを作成する必要があるスタイル転送は、創造性とアクセシビリティの欠如をもたらす可能性がある。
一方、人間の指示に従うことは、視覚効果アプリケーションの制御性を大幅に向上させる芸術的スタイル転送を行う最も自然な方法である。
テキストでガイドされたコンテンツイメージのスタイルを操作するために,言語駆動型画像スタイル転送(\texttt{LDIST})という新たなタスクを導入する。
そこで我々は,スタイル指示から視覚的意味を抽出し,パッチワイドなスタイル判別器で「texttt{LDIST}」を実現できるコントラスト言語ビジュアルアーティスト(CLVA)を提案する。
判別器は、スタイル画像の言語とパッチの相関や、スタイル命令を共同埋め込むための転送結果について検討する。
CLVAはさらに、コンテントイメージのコントラスト対とスタイル命令を比較して、転送結果間の相互相対性を改善する。
同じコンテンツ画像から転送された結果は、一貫したコンテンツ構造を保存できる。
さらに、同様のビジュアルセマンティクスを含むスタイル命令からの類似のスタイルパターンも提示する必要がある。
実験の結果, CLVA は有効であり, <texttt{LDIST} 上で超過渡した結果が得られることがわかった。
関連論文リスト
- PromptStyler: Prompt-driven Style Generation for Source-free Domain
Generalization [35.37285674554127]
本稿では,プロンプトを介して多様なスタイルを合成することにより,関節空間における様々な分布変化をシミュレートするPromptStylerを提案する。
提案手法は,擬似単語S*に対する学習可能なスタイルワードベクトルを用いて,様々なスタイル特徴を生成することを学習する。
PromptStylerは、トレーニングにイメージを必要としないにも関わらず、PACS、VLCS、OfficeHome、DomainNetの最先端技術を実現している。
論文 参考訳(メタデータ) (2023-07-27T21:14:46Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Name Your Style: An Arbitrary Artist-aware Image Style Transfer [38.41608300670523]
任意のスタイル転送を制御するために,高度な画像テキストエンコーダを利用するテキスト駆動型画像スタイル転送(TxST)を提案する。
画像テキストモデルからスタイル記述を効果的に抽出するための対照的なトレーニング戦略を導入する。
我々はまた、スタイルやコンテンツの特徴を融合するクロスアテンションを探求する、新しく効率的なアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2022-02-28T06:21:38Z) - CLIPstyler: Image Style Transfer with a Single Text Condition [34.24876359759408]
既存のニューラルスタイル転送法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために参照スタイル画像が必要である。
そこで本稿では,スタイルイメージを必要とせず,所望のスタイルをテキストで記述した上でのみ,スタイル転送を可能にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T09:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。