論文の概要: StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model
- arxiv url: http://arxiv.org/abs/2303.09268v1
- Date: Thu, 16 Mar 2023 12:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:41:05.227794
- Title: StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model
- Title(参考訳): StylerDALLE:大規模生成モデルのベクトル量子化トケナイザを用いた言語ガイド型変換
- Authors: Zipeng Xu, Enver Sangineto, Nicu Sebe
- Abstract要約: 本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
- 参考スコア(独自算出の注目度): 74.3241703905741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the progress made in the style transfer task, most previous work
focus on transferring only relatively simple features like color or texture,
while missing more abstract concepts such as overall art expression or
painter-specific traits. However, these abstract semantics can be captured by
models like DALL-E or CLIP, which have been trained using huge datasets of
images and textual documents. In this paper, we propose StylerDALLE, a style
transfer method that exploits both of these models and uses natural language to
describe abstract art styles. Specifically, we formulate the language-guided
style transfer task as a non-autoregressive token sequence translation, i.e.,
from input content image to output stylized image, in the discrete latent space
of a large-scale pretrained vector-quantized tokenizer. To incorporate style
information, we propose a Reinforcement Learning strategy with CLIP-based
language supervision that ensures stylization and content preservation
simultaneously. Experimental results demonstrate the superiority of our method,
which can effectively transfer art styles using language instructions at
different granularities. Code is available at
https://github.com/zipengxuc/StylerDALLE.
- Abstract(参考訳): スタイル転送タスクの進歩にもかかわらず、以前のほとんどの作品は、色やテクスチャのような比較的単純な特徴のみを転送することに集中し、全体的なアート表現や画家特有の特徴のようなより抽象的な概念を欠いている。
しかし、これらの抽象的なセマンティクスは、画像とテキストドキュメントの巨大なデータセットを使用してトレーニングされたDALL-EやCLIPのようなモデルによってキャプチャできる。
本稿では,これら2つのモデルを活用し,自然言語を用いて抽象的アートスタイルを記述するスタイル転送手法であるstylerdalleを提案する。
具体的には, 大規模事前学習ベクトル量子化トークン化器の離散的潜在空間において, 入力内容画像から出力スタイライゼーション画像への非自己回帰トークン列変換として言語ガイド方式の転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案し,スタイリゼーションとコンテンツ保存を同時に行う。
実験により,異なる粒度で言語指示を用いたアートスタイルを効果的に転送できる手法の優位性を示す。
コードはhttps://github.com/zipengxuc/stylerdalleで入手できる。
関連論文リスト
- Conversation Style Transfer using Few-Shot Learning [61.193993717904895]
本稿では,会話スタイルの伝達を数ショットの学習問題として紹介する。
そこで本研究では,スタイルフリー対話による課題をピボットとして解くための,コンテキスト内学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-16T15:27:00Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - StyleBabel: Artistic Style Tagging and Captioning [38.792350870518504]
StyleBabelは、自然言語キャプションのユニークなオープンアクセスデータセットであり、135K以上のデジタルアートアートの芸術スタイルを記述したフリーフォームタグである。
論文 参考訳(メタデータ) (2022-03-10T12:15:55Z) - Name Your Style: An Arbitrary Artist-aware Image Style Transfer [38.41608300670523]
任意のスタイル転送を制御するために,高度な画像テキストエンコーダを利用するテキスト駆動型画像スタイル転送(TxST)を提案する。
画像テキストモデルからスタイル記述を効果的に抽出するための対照的なトレーニング戦略を導入する。
我々はまた、スタイルやコンテンツの特徴を融合するクロスアテンションを探求する、新しく効率的なアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2022-02-28T06:21:38Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。