論文の概要: Style Injection in Diffusion: A Training-free Approach for Adapting Large-scale Diffusion Models for Style Transfer
- arxiv url: http://arxiv.org/abs/2312.09008v2
- Date: Wed, 20 Mar 2024 12:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 21:58:15.418470
- Title: Style Injection in Diffusion: A Training-free Approach for Adapting Large-scale Diffusion Models for Style Transfer
- Title(参考訳): 拡散におけるスタイル注入:大規模拡散モデルに適応する訓練不要アプローチ
- Authors: Jiwoo Chung, Sangeek Hyun, Jae-Pil Heo,
- Abstract要約: 本研究では,事前学習した大規模拡散モデルに基づく新たな芸術的スタイル伝達手法を提案する。
実験の結果,提案手法は従来の手法と拡散型方式の両方で最先端の手法を超越していることがわかった。
- 参考スコア(独自算出の注目度): 19.355744690301403
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the impressive generative capabilities of diffusion models, existing diffusion model-based style transfer methods require inference-stage optimization (e.g. fine-tuning or textual inversion of style) which is time-consuming, or fails to leverage the generative ability of large-scale diffusion models. To address these issues, we introduce a novel artistic style transfer method based on a pre-trained large-scale diffusion model without any optimization. Specifically, we manipulate the features of self-attention layers as the way the cross-attention mechanism works; in the generation process, substituting the key and value of content with those of style image. This approach provides several desirable characteristics for style transfer including 1) preservation of content by transferring similar styles into similar image patches and 2) transfer of style based on similarity of local texture (e.g. edge) between content and style images. Furthermore, we introduce query preservation and attention temperature scaling to mitigate the issue of disruption of original content, and initial latent Adaptive Instance Normalization (AdaIN) to deal with the disharmonious color (failure to transfer the colors of style). Our experimental results demonstrate that our proposed method surpasses state-of-the-art methods in both conventional and diffusion-based style transfer baselines.
- Abstract(参考訳): 拡散モデルの顕著な生成能力にもかかわらず、既存の拡散モデルに基づくスタイル転送法では、時間を要する推論段階の最適化(例えば、微調整やスタイルのテキスト逆転)が必要であり、大規模な拡散モデルの生成能力の活用に失敗する。
これらの課題に対処するために,事前学習された大規模拡散モデルに基づく新たな芸術的スタイル伝達手法を提案する。
具体的には, 自己注意層の特徴を相互注意機構の働き方として操作し, 生成過程において, 映像のキーと値の置換を行う。
このアプローチは、スタイル転送を含むいくつかの望ましい特徴を提供する。
1)類似のスタイルを類似のイメージパッチに転送し,内容の保存
2) 局所的なテクスチャ(egエッジ)の類似性に基づいて, コンテンツとスタイルイメージ間のスタイルの転送を行う。
さらに、クエリ保存と注意温度のスケーリングを導入して、オリジナルコンテンツの破壊の問題を緩和し、不調和な色(スタイルの色を転送できない)を扱うために、初期遅延適応インスタンス正規化(AdaIN)を導入します。
実験の結果,提案手法は従来の手法と拡散型方式の両方で最先端の手法を超越していることがわかった。
関連論文リスト
- ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - DiffStyler: Diffusion-based Localized Image Style Transfer [0.0]
画像スタイル転送は、色、ブラシストローク、形状など、スタイルターゲットの特徴的な特性を持つデジタルイメージを埋め込むことを目的としている。
任意のスタイル転送手法の進歩にもかかわらず、コンテンツセマンティクスとスタイル属性の微妙な均衡は依然として大きな課題である。
本稿ではDiffStylerについて紹介する。DiffStylerは、任意の画像スタイルの効率的な転送を容易にする新しいアプローチである。
論文 参考訳(メタデータ) (2024-03-27T11:19:34Z) - Diffusion-based Human Motion Style Transfer with Semantic Guidance [23.600154466988073]
拡散モデルに基づく数ショットスタイルのトランスファー学習のための新しいフレームワークを提案する。
第1段階では,拡散に基づくテキスト・ツー・モーション・モデルを生成前として事前学習する。
第2段階では、単一スタイルの例に基づいて、事前学習した拡散モデルを数ショットで微調整し、スタイル転送を可能にする。
論文 参考訳(メタデータ) (2024-03-20T05:52:11Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style
Transfer [38.957512116073616]
我々は、追加の微調整や補助的なネットワークを必要としない拡散モデルに対して、ゼロショットのコントラスト損失を提案する。
本手法は,ゼロショット方式で,ソース画像と同一のセマンティックな内容の画像を生成できる。
論文 参考訳(メタデータ) (2023-03-15T13:47:02Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。