論文の概要: StyleDiffusion: Controllable Disentangled Style Transfer via Diffusion
Models
- arxiv url: http://arxiv.org/abs/2308.07863v1
- Date: Tue, 15 Aug 2023 16:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 12:11:05.825734
- Title: StyleDiffusion: Controllable Disentangled Style Transfer via Diffusion
Models
- Title(参考訳): stylediffusion:拡散モデルによる制御可能な不連続型スタイル転送
- Authors: Zhizhong Wang, Lei Zhao, Wei Xing
- Abstract要約: 従来の仮定を使わずにスタイル転送のための新しいC-S不整合フレームワークを提案する。
また,CLIP画像空間内のC-Sをアンタングル化するために,従来のスタイル再構成と協調したシンプルなCLIPベースのスタイルのアンタングル化損失を導入する。
本研究は,C-Sのスタイル伝達における不整合性に関する新たな知見を提供し,不整合性を有するC-S特性を学習するための拡散モデルの可能性を示す。
- 参考スコア(独自算出の注目度): 21.109649435778262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content and style (C-S) disentanglement is a fundamental problem and critical
challenge of style transfer. Existing approaches based on explicit definitions
(e.g., Gram matrix) or implicit learning (e.g., GANs) are neither interpretable
nor easy to control, resulting in entangled representations and less satisfying
results. In this paper, we propose a new C-S disentangled framework for style
transfer without using previous assumptions. The key insight is to explicitly
extract the content information and implicitly learn the complementary style
information, yielding interpretable and controllable C-S disentanglement and
style transfer. A simple yet effective CLIP-based style disentanglement loss
coordinated with a style reconstruction prior is introduced to disentangle C-S
in the CLIP image space. By further leveraging the powerful style removal and
generative ability of diffusion models, our framework achieves superior results
than state of the art and flexible C-S disentanglement and trade-off control.
Our work provides new insights into the C-S disentanglement in style transfer
and demonstrates the potential of diffusion models for learning
well-disentangled C-S characteristics.
- Abstract(参考訳): コンテンツとスタイル(C-S)の絡み合いは、スタイル転送の根本的な問題であり、重要な課題である。
明示的な定義(グラム行列など)や暗黙的な学習(GANなど)に基づく既存のアプローチは、解釈可能でも制御が容易でもなく、絡み合った表現となり、結果の満足度が低下する。
本稿では,従来の仮定を使わずに,スタイル転送のための新しいC-S不整合フレームワークを提案する。
鍵となる洞察は、コンテンツ情報を明示的に抽出し、補完的なスタイル情報を暗黙的に学習し、解釈可能で制御可能なC-S歪みとスタイル転送をもたらすことである。
また,CLIP画像空間内のC-Sをアンタングル化するために,従来のスタイル再構成と協調したシンプルなCLIPベースのスタイルのアンタングル化損失を導入する。
拡散モデルの強力なスタイル除去と生成能力をさらに活用することにより,最先端技術やフレキシブルなc-s異方性とトレードオフ制御よりも優れた結果が得られる。
本研究は,スタイル伝達におけるc-sの不連続性に関する新たな知見を提供し,c-s特性学習のための拡散モデルの可能性を示す。
関連論文リスト
- UniVST: A Unified Framework for Training-free Localized Video Style Transfer [66.69471376934034]
ローカライズドビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングは不要で、ビデオ全体にわたってスタイルを転送する既存の方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - Diffusion-based Human Motion Style Transfer with Semantic Guidance [23.600154466988073]
拡散モデルに基づく数ショットスタイルのトランスファー学習のための新しいフレームワークを提案する。
第1段階では,拡散に基づくテキスト・ツー・モーション・モデルを生成前として事前学習する。
第2段階では、単一スタイルの例に基づいて、事前学習した拡散モデルを数ショットで微調整し、スタイル転送を可能にする。
論文 参考訳(メタデータ) (2024-03-20T05:52:11Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer [58.020470877242865]
我々は,芸術的,写真的,映像的スタイルのトランスファーを共同で行うことができる汎用的なスタイルトランスファー手法を考案した。
我々は,グローバル不整合が局所的不整合に支配されているという軽度かつ合理的な仮定を定め,局所的パッチに適用した汎用的コントラストコヒーレンス保存損失(CCPL)を考案する。
CCPLは、スタイル化を低下させることなく、スタイル転送中のコンテンツソースのコヒーレンスを保存することができる。
論文 参考訳(メタデータ) (2022-07-11T12:09:41Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Rethinking Content and Style: Exploring Bias for Unsupervised
Disentanglement [59.033559925639075]
本研究では,異なる要因が画像再構成において重要度や人気度が異なるという仮定に基づいて,教師なしc-s異節の定式化を提案する。
モデルインダクティブバイアスは,提案したC-Sアンタングルメントモジュール(C-S DisMo)によって導入された。
いくつかの一般的なデータセットに対する実験により、我々の手法が最先端の教師なしC-Sアンタングルメントを実現することを示す。
論文 参考訳(メタデータ) (2021-02-21T08:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。