論文の概要: Improving the Latent Space of Image Style Transfer
- arxiv url: http://arxiv.org/abs/2205.12135v1
- Date: Tue, 24 May 2022 15:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:16:23.705121
- Title: Improving the Latent Space of Image Style Transfer
- Title(参考訳): 画像スタイル転送の潜時空間改善
- Authors: Yunpeng Bai, Cairong Wang, Chun Yuan, Yanbo Fan, Jue Wang
- Abstract要約: 事前訓練されたエンコーダの特徴統計は、私たちが認識した視覚的スタイルと一致しない場合もある。
そのような不適切な潜在空間では、既存の手法の目的関数は間違った方向に最適化される。
本稿では,この課題に適合する洗練されたエンコーダを得るための2つの対照的な訓練手法を提案する。
- 参考スコア(独自算出の注目度): 24.37383949267162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing neural style transfer researches have studied to match statistical
information between the deep features of content and style images, which were
extracted by a pre-trained VGG, and achieved significant improvement in
synthesizing artistic images. However, in some cases, the feature statistics
from the pre-trained encoder may not be consistent with the visual style we
perceived. For example, the style distance between images of different styles
is less than that of the same style. In such an inappropriate latent space, the
objective function of the existing methods will be optimized in the wrong
direction, resulting in bad stylization results. In addition, the lack of
content details in the features extracted by the pre-trained encoder also leads
to the content leak problem. In order to solve these issues in the latent space
used by style transfer, we propose two contrastive training schemes to get a
refined encoder that is more suitable for this task. The style contrastive loss
pulls the stylized result closer to the same visual style image and pushes it
away from the content image. The content contrastive loss enables the encoder
to retain more available details. We can directly add our training scheme to
some existing style transfer methods and significantly improve their results.
Extensive experimental results demonstrate the effectiveness and superiority of
our methods.
- Abstract(参考訳): 既存のニューラルスタイル転送研究は、VGGによって抽出された内容の深い特徴とスタイルイメージの統計情報を一致させ、芸術的画像の合成において顕著な改善を実現している。
しかし、事前訓練されたエンコーダの特徴統計は、私たちが認識した視覚的スタイルと一致しない場合もある。
例えば、異なるスタイルの画像間のスタイル距離は、同じスタイルのものよりも少ない。
このような不適切な潜在空間では、既存のメソッドの目的関数は間違った方向に最適化されるため、スタイリゼーション結果が悪くなる。
さらに、事前学習されたエンコーダによって抽出された機能におけるコンテンツ詳細の欠如も、コンテンツリーク問題につながる。
スタイル転送で使用される潜在空間におけるこれらの問題を解決するために,本課題に適したエンコーダを得るための2つのコントラストトレーニングスキームを提案する。
スタイルの対照的な損失は、スタイル化された結果が同じ視覚的なスタイルの画像に近づき、コンテンツイメージから切り離される。
コントラスト損失により、エンコーダはより利用可能な詳細を保持することができる。
既存のスタイル転送メソッドに直接トレーニングスキームを追加でき、その結果を大幅に改善できます。
広範な実験結果から,本手法の有効性と優越性が示された。
関連論文リスト
- DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - D2Styler: Advancing Arbitrary Style Transfer with Discrete Diffusion Methods [2.468658581089448]
D$2$Styler (Discrete Diffusion Styler) と呼ばれる新しいフレームワークを提案する。
本手法では,アダプティブインスタンス正規化(AdaIN)機能を逆拡散過程のコンテキストガイドとして用いる。
実験により、D$2$Stylerは高品質なスタイル変換画像を生成することが示された。
論文 参考訳(メタデータ) (2024-08-07T05:47:06Z) - Rethink Arbitrary Style Transfer with Transformer and Contrastive Learning [11.900404048019594]
本稿では,スタイリング画像の品質向上のための革新的手法を提案する。
まず、コンテンツとスタイルの特徴の整合性を改善する手法であるスタイル一貫性インスタンス正規化(SCIN)を提案する。
さらに,様々なスタイル間の関係を理解するために,インスタンスベースのコントラスト学習(ICL)アプローチを開発した。
論文 参考訳(メタデータ) (2024-04-21T08:52:22Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Learning Diverse Tone Styles for Image Retouching [73.60013618215328]
本稿では,フローベースアーキテクチャの標準化により,多様な画像のリタッチを学習することを提案する。
ジョイントトレーニングパイプラインは、スタイルエンコーダ、条件付きRetouchNet、イメージトーンスタイル正規化フロー(TSFlow)モジュールで構成される。
提案手法は最先端の手法に対して良好に動作し,多様な結果を生成するのに有効である。
論文 参考訳(メタデータ) (2022-07-12T09:49:21Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Saliency Constrained Arbitrary Image Style Transfer using SIFT and DCNN [22.57205921266602]
一般的なニューラルスタイルの転送方法を使用する場合、スタイル画像のテクスチャや色は通常、コンテンツ画像に不完全に転送される。
本稿では,その効果を低減・回避するための新しいサリエンシ制約手法を提案する。
実験により、ソースイメージの正当性マップは正しいマッチングを見つけ出し、アーティファクトを避けるのに役立つことが示された。
論文 参考訳(メタデータ) (2022-01-14T09:00:55Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。