論文の概要: Multimodality-guided Image Style Transfer using Cross-modal GAN
Inversion
- arxiv url: http://arxiv.org/abs/2312.01671v1
- Date: Mon, 4 Dec 2023 06:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:58:24.012172
- Title: Multimodality-guided Image Style Transfer using Cross-modal GAN
Inversion
- Title(参考訳): クロスモーダルganインバージョンを用いたマルチモーダリティ誘導画像スタイル転送
- Authors: Hanyu Wang, Pengxiang Wu, Kevin Dela Rosa, Chen Wang, Abhinav
Shrivastava
- Abstract要約: そこで本研究では,テキストガイダンスに基づいて,より優れたスタイル転送を実現する新しい手法を提案する。
提案手法は複数のソースやモダリティからのスタイル入力を可能にし,マルチモーダル誘導画像スタイル転送(MMIST)を実現する。
具体的には,特定のスタイルに整合したスタイル表現を生成する,新しいクロスモーダルなGANインバージョン手法によりMMISTを実現する。
- 参考スコア(独自算出の注目度): 42.345533741985626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Style Transfer (IST) is an interdisciplinary topic of computer vision
and art that continuously attracts researchers' interests. Different from
traditional Image-guided Image Style Transfer (IIST) methods that require a
style reference image as input to define the desired style, recent works start
to tackle the problem in a text-guided manner, i.e., Text-guided Image Style
Transfer (TIST). Compared to IIST, such approaches provide more flexibility
with text-specified styles, which are useful in scenarios where the style is
hard to define with reference images. Unfortunately, many TIST approaches
produce undesirable artifacts in the transferred images. To address this issue,
we present a novel method to achieve much improved style transfer based on text
guidance. Meanwhile, to offer more flexibility than IIST and TIST, our method
allows style inputs from multiple sources and modalities, enabling
MultiModality-guided Image Style Transfer (MMIST). Specifically, we realize
MMIST with a novel cross-modal GAN inversion method, which generates style
representations consistent with specified styles. Such style representations
facilitate style transfer and in principle generalize any IIST methods to
MMIST. Large-scale experiments and user studies demonstrate that our method
achieves state-of-the-art performance on TIST task. Furthermore, comprehensive
qualitative results confirm the effectiveness of our method on MMIST task and
cross-modal style interpolation.
- Abstract(参考訳): Image Style Transfer (IST)はコンピュータビジョンとアートの学際的な話題であり、研究者の関心を継続的に惹きつける。
所望のスタイルを定義するために入力としてスタイル参照イメージを必要とする従来の画像誘導画像スタイル転送(IIST)とは異なり、最近の研究はテキスト誘導方式、すなわちテキスト誘導画像スタイル転送(TIST)でこの問題に取り組むようになった。
IISTと比較して、このようなアプローチはテキスト指定のスタイルでより柔軟性を提供しており、参照画像で定義するのが難しいシナリオで有用である。
残念なことに、多くのTISTアプローチは転送された画像に望ましくないアーティファクトを生成する。
この問題に対処するために,テキストガイダンスに基づいて,より優れたスタイル転送を実現する新しい手法を提案する。
一方、IISTやTISTよりも柔軟性が高く、複数のソースやモダリティからのスタイル入力が可能であり、MultiModality-guided Image Style Transfer (MMIST)を可能にする。
具体的には,特定のスタイルに整合したスタイル表現を生成する,新しいクロスモーダルGANインバージョン法によりMMISTを実現する。
このようなスタイル表現はスタイル転送を促進し、原則として任意のIISTメソッドをMMISTに一般化する。
大規模実験とユーザスタディにより,本手法がTISTタスクにおける最先端性能を実現することを示す。
さらに,本手法がMMISTタスクおよびクロスモーダル型補間における有効性を確認した。
関連論文リスト
- Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - Any-to-Any Style Transfer: Making Picasso and Da Vinci Collaborate [58.83278629019384]
スタイル転送は、コンテンツ参照のために、ある画像のスタイルを他の画像へのスタイル参照にレンダリングすることを目的としている。
既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルな方法で適用するか、あるいは、スタイルイメージのローカル色とテクスチャを、事前に定義された方法でコンテンツに移行するかのいずれかである。
本稿では,Any-to-Any Style Transferを提案する。Any-to-Any Style Transferは,スタイル画像中の領域のスタイルを対話的に選択し,所定のコンテンツ領域に適用することができる。
論文 参考訳(メタデータ) (2023-04-19T15:15:36Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - STALP: Style Transfer with Auxiliary Limited Pairing [36.23393954839379]
本稿では,1対のソース画像と,そのスタイリング画像を用いた画像の例ベーススタイリング手法を提案する。
本研究では,対象画像に対するリアルタイムな意味論的スタイル転送が可能な画像翻訳ネットワークの訓練方法を示す。
論文 参考訳(メタデータ) (2021-10-20T11:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。