論文の概要: ITstyler: Image-optimized Text-based Style Transfer
- arxiv url: http://arxiv.org/abs/2301.10916v1
- Date: Thu, 26 Jan 2023 03:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:28:19.314771
- Title: ITstyler: Image-optimized Text-based Style Transfer
- Title(参考訳): ITstyler: 画像最適化テキストベースのスタイル転送
- Authors: Yunpeng Bai, Jiayue Liu, Chao Dong, Chun Yuan
- Abstract要約: 推論段階で最適化を必要としないテキストベースのスタイル転送手法を提案する。
具体的には,テキスト入力を事前学習したVGGネットワークのスタイル空間に変換し,より効果的なスタイルスワップを実現する。
本手法は,任意のテキスト入力スタイルをリアルタイムに転送し,高品質な芸術画像を合成する。
- 参考スコア(独自算出の注目度): 25.60521982742093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based style transfer is a newly-emerging research topic that uses text
information instead of style image to guide the transfer process, significantly
extending the application scenario of style transfer. However, previous methods
require extra time for optimization or text-image paired data, leading to
limited effectiveness. In this work, we achieve a data-efficient text-based
style transfer method that does not require optimization at the inference
stage. Specifically, we convert text input to the style space of the
pre-trained VGG network to realize a more effective style swap. We also
leverage CLIP's multi-modal embedding space to learn the text-to-style mapping
with the image dataset only. Our method can transfer arbitrary new styles of
text input in real-time and synthesize high-quality artistic images.
- Abstract(参考訳): テキストベースのスタイル転送は、スタイルイメージの代わりにテキスト情報を使用して転送プロセスをガイドする新しい研究トピックであり、スタイル転送のアプリケーションシナリオを大幅に拡張する。
しかし、従来の手法では最適化やテキストイメージのペアデータに余分な時間を要するため、有効性は限られている。
本研究では,推論段階で最適化を必要とせず,データ効率の良いテキストベースのスタイル転送手法を実現する。
具体的には,テキスト入力を事前学習したVGGネットワークのスタイル空間に変換し,より効果的なスタイルスワップを実現する。
また、CLIPのマルチモーダル埋め込みスペースを活用して、画像データセットのみによるテキストからスタイルへのマッピングを学習します。
本手法は,任意のテキスト入力スタイルをリアルタイムに転送し,高品質な芸術画像を合成する。
関連論文リスト
- Bridging Text and Image for Artist Style Transfer via Contrastive Learning [21.962361974579036]
本稿では,任意のスタイル転送を制御するためのCLAST(Contrastive Learning for Artistic Style Transfer)を提案する。
画像テキストモデルからスタイル記述を効果的に抽出するための教師付きコントラスト訓練戦略を導入する。
また,AdaLNをベースとした新規かつ効率的な状態空間モデルを提案する。
論文 参考訳(メタデータ) (2024-10-12T15:27:57Z) - Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace [52.24866347353916]
本稿では,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
また,テキスト部分空間の基底を決定するための効率的な選択戦略を提案する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
論文 参考訳(メタデータ) (2024-06-30T06:41:21Z) - LEAST: "Local" text-conditioned image style transfer [2.47996065798589]
テキスト条件付きスタイル転送により、ユーザーはテキスト記述を通じて、希望する芸術的スタイルを伝達できる。
我々は,テキスト条件付き画像編集とスタイル転送技術について,正確な「ローカル」スタイル転送のためのユーザプロンプトのきめ細かい理解に基づいて評価した。
論文 参考訳(メタデータ) (2024-05-25T19:06:17Z) - StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer [9.010012117838725]
StyleMambaは、テキストプロンプトを対応する視覚スタイルに変換する効率的な画像スタイル転送フレームワークである。
既存のテキストガイドによるスタイリングには、数百のトレーニングイテレーションが必要で、多くのコンピューティングリソースが必要です。
論文 参考訳(メタデータ) (2024-05-08T12:57:53Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - Towards Arbitrary Text-driven Image Manipulation via Space Alignment [49.3370305074319]
スペースアライメント(TMSA)を用いた新しいテキスト駆動画像操作フレームワークを提案する。
TMSAはCLIPとStyleGAN空間で同じセマンティック領域を整列することを目的としている。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートすることができる。
論文 参考訳(メタデータ) (2023-01-25T16:20:01Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - CLIPstyler: Image Style Transfer with a Single Text Condition [34.24876359759408]
既存のニューラルスタイル転送法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために参照スタイル画像が必要である。
そこで本稿では,スタイルイメージを必要とせず,所望のスタイルをテキストで記述した上でのみ,スタイル転送を可能にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T09:48:53Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。