論文の概要: Generative Artisan: A Semantic-Aware and Controllable CLIPstyler
- arxiv url: http://arxiv.org/abs/2207.11598v1
- Date: Sat, 23 Jul 2022 20:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:24:03.374518
- Title: Generative Artisan: A Semantic-Aware and Controllable CLIPstyler
- Title(参考訳): 生成的アーティサン:意味認識と制御可能なクリップスタイル
- Authors: Zhenling Yang, Huacheng Song, Qiunan Wu
- Abstract要約: 本稿では,事前学習したCLIPテキストイメージ埋め込みモデルを用いて,FCNセマンティックセグメンテーションネットワークを通じて画像スタイルの転送をガイドする新しいフレームワークを提案する。
具体的には、自撮り写真と現実世界の風景の両方のポートレート・オーバー・スティリング問題を、人間の被写体写真で解決する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recall that most of the current image style transfer methods require the user
to give an image of a particular style and then extract that styling feature
and texture to generate the style of an image, but there are still some
problems: the user may not have a reference style image, or it may be difficult
to summarise the desired style in mind with just one image. The recently
proposed CLIPstyler has solved this problem, which is able to perform style
transfer based only on the provided description of the style image. Although
CLIPstyler can achieve good performance when landscapes or portraits appear
alone, it can blur the people and lose the original semantics when people and
landscapes coexist. Based on these issues, we demonstrate a novel framework
that uses a pre-trained CLIP text-image embedding model and guides image style
transfer through an FCN semantic segmentation network. Specifically, we solve
the portrait over-styling problem for both selfies and real-world landscape
with human subjects photos, enhance the contrast between the effect of style
transfer in portrait and landscape, and make the degree of image style transfer
in different semantic parts fully controllable. Our Generative Artisan resolve
the failure case of CLIPstyler and yield both qualitative and quantitative
methods to prove ours have much better results than CLIPstyler in both selfies
and real-world landscape with human subjects photos. This improvement makes it
possible to commercialize our framework for business scenarios such as
retouching graphics software.
- Abstract(参考訳): 現在のイメージスタイル転送手法のほとんどが、ユーザが特定のスタイルのイメージを与え、そのスタイルの特徴とテクスチャを抽出してイメージのスタイルを生成する必要があることを思い出してください。
最近提案されたCLIPstylerがこの問題を解決し、提供されたスタイルイメージの記述に基づいてスタイル転送を行うことができる。
clipstylerは、ランドスケープやポートレートが単独で現れると良いパフォーマンスを得られるが、人間とランドスケープが共存すると、人々はぼやけ、元のセマンティクスを失うことがある。
そこで本研究では,事前学習したクリップテキスト画像埋め込みモデルを用いて,fcnセマンティクスセグメンテーションネットワークを介して画像スタイル転送をガイドする新しいフレームワークを提案する。
具体的には、自撮り写真と実世界の風景写真の両方のポートレートオーバータイリング問題を、人物写真を用いて解決し、ポートレートとランドスケープにおけるスタイル転送の効果のコントラストを高め、異なる意味部分におけるイメージスタイル転送の程度を完全に制御可能にする。
私たちのジェネレーティブアーティザンは、CLIPstylerの失敗を解決し、定性的かつ定量的な方法の両方で、人間の写真による自撮りと実世界の風景の両方において、CLIPstylerよりもはるかに優れた結果が得られることを証明します。
この改善により、グラフィックソフトウェアをリタッチするといったビジネスシナリオのためのフレームワークを商用化することができます。
関連論文リスト
- PS-StyleGAN: Illustrative Portrait Sketching using Attention-Based Style Adaptation [0.0]
ポートレートスケッチでは、抽象的な線と影で実際の顔のアイデンティティ固有の属性をキャプチャする。
本稿では,肖像画合成に適したスタイル転送手法である textbfPortrait Sketching StyleGAN (PS-StyleGAN) を提案する。
StyleGANのセマンティックな$W+$潜在空間を利用してポートレートスケッチを生成します。
論文 参考訳(メタデータ) (2024-08-31T04:22:45Z) - MOSAIC: Multi-Object Segmented Arbitrary Stylization Using CLIP [0.0]
テキストによって駆動されるスタイル転送は、実際のスタイルイメージを収集することなく、創造的に画像をスタイリングするための新しいパスを舗装した。
入力プロンプトから抽出したコンテキストに基づいて、画像内の異なるオブジェクトにスタイルを適用することができるCLIP(MOSAIC)を用いたマルチオブジェクト分割任意スティル化手法を提案する。
本手法は任意のオブジェクトやスタイルに拡張可能であり,最先端の手法と比較して高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-24T18:24:55Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - Any-to-Any Style Transfer: Making Picasso and Da Vinci Collaborate [58.83278629019384]
スタイル転送は、コンテンツ参照のために、ある画像のスタイルを他の画像へのスタイル参照にレンダリングすることを目的としている。
既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルな方法で適用するか、あるいは、スタイルイメージのローカル色とテクスチャを、事前に定義された方法でコンテンツに移行するかのいずれかである。
本稿では,Any-to-Any Style Transferを提案する。Any-to-Any Style Transferは,スタイル画像中の領域のスタイルを対話的に選択し,所定のコンテンツ領域に適用することができる。
論文 参考訳(メタデータ) (2023-04-19T15:15:36Z) - Learning Diverse Tone Styles for Image Retouching [73.60013618215328]
本稿では,フローベースアーキテクチャの標準化により,多様な画像のリタッチを学習することを提案する。
ジョイントトレーニングパイプラインは、スタイルエンコーダ、条件付きRetouchNet、イメージトーンスタイル正規化フロー(TSFlow)モジュールで構成される。
提案手法は最先端の手法に対して良好に動作し,多様な結果を生成するのに有効である。
論文 参考訳(メタデータ) (2022-07-12T09:49:21Z) - CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer [58.020470877242865]
我々は,芸術的,写真的,映像的スタイルのトランスファーを共同で行うことができる汎用的なスタイルトランスファー手法を考案した。
我々は,グローバル不整合が局所的不整合に支配されているという軽度かつ合理的な仮定を定め,局所的パッチに適用した汎用的コントラストコヒーレンス保存損失(CCPL)を考案する。
CCPLは、スタイル化を低下させることなく、スタイル転送中のコンテンツソースのコヒーレンスを保存することができる。
論文 参考訳(メタデータ) (2022-07-11T12:09:41Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Translation [10.357474047610172]
本稿では,ユーザが所望の描画スタイルを指定可能なテキスト記述のためのスタイルドローイング生成手法を提案する。
創作過程において、スタイルと内容が分離できないという芸術理論に触発されて、我々はStyleCLIPDrawとして知られる、結合したアプローチを提案する。
人間の評価に基づいて、StyleCLIPDrawによって生成される画像のスタイルは、シーケンシャルアプローチによって強く好まれる。
論文 参考訳(メタデータ) (2022-02-24T21:03:51Z) - CLIPstyler: Image Style Transfer with a Single Text Condition [34.24876359759408]
既存のニューラルスタイル転送法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために参照スタイル画像が必要である。
そこで本稿では,スタイルイメージを必要とせず,所望のスタイルをテキストで記述した上でのみ,スタイル転送を可能にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T09:48:53Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。