論文の概要: $Z^*$: Zero-shot Style Transfer via Attention Rearrangement
- arxiv url: http://arxiv.org/abs/2311.16491v1
- Date: Sat, 25 Nov 2023 11:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:15:15.663954
- Title: $Z^*$: Zero-shot Style Transfer via Attention Rearrangement
- Title(参考訳): Z^*$: 注意再配置によるゼロショットスタイルの転送
- Authors: Yingying Deng, Xiangyu He, Fan Tang, Weiming Dong
- Abstract要約: 本研究では,バニラ拡散モデルが直接スタイル情報を抽出し,生成前の情報をコンテンツイメージにシームレスに統合できることを示す。
我々は、遅延空間におけるコンテンツ/スタイル参照を表すために、デュアル・デノナイズ・パスを採用し、次に、スタイル・レイト・コードでコンテンツ・イメージ・デノナイズ・プロセスをガイドする。
- 参考スコア(独自算出の注目度): 27.185432348397693
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the remarkable progress in image style transfer, formulating style in
the context of art is inherently subjective and challenging. In contrast to
existing learning/tuning methods, this study shows that vanilla diffusion
models can directly extract style information and seamlessly integrate the
generative prior into the content image without retraining. Specifically, we
adopt dual denoising paths to represent content/style references in latent
space and then guide the content image denoising process with style latent
codes. We further reveal that the cross-attention mechanism in latent diffusion
models tends to blend the content and style images, resulting in stylized
outputs that deviate from the original content image. To overcome this
limitation, we introduce a cross-attention rearrangement strategy. Through
theoretical analysis and experiments, we demonstrate the effectiveness and
superiority of the diffusion-based $\underline{Z}$ero-shot $\underline{S}$tyle
$\underline{T}$ransfer via $\underline{A}$ttention $\underline{R}$earrangement,
Z-STAR.
- Abstract(参考訳): イメージスタイル転送の著しい進歩にもかかわらず、芸術の文脈における定式化スタイルは本質的に主観的で挑戦的なものである。
既存の学習/チューニング手法とは対照的に,バニラ拡散モデルが直接スタイル情報を抽出し,再トレーニングすることなく生成前処理をコンテンツ画像にシームレスに統合できることを示す。
具体的には、コンテンツ/スタイルの参照を潜在空間で表現し、その後、スタイル潜在コードでコンテンツイメージの表示プロセスをガイドするデュアル・デノイジングパスを採用する。
さらに, 潜在拡散モデルにおけるクロスアテンション機構は, コンテンツとスタイル画像とをブレンドする傾向があり, 結果として, 元のコンテンツ画像から逸脱するスタイリッシュな出力が得られることを明らかにした。
この限界を克服するため,我々はクロスアテンション・リレンジメント戦略を導入する。
理論的解析と実験により、拡散に基づく $\underline{Z}$ero-shot $\underline{S}$tyle $\underline{T}$ransfer via $\underline{A}$ttention $\underline{R}$arrangement, Z-STAR の有効性と優位性を示す。
関連論文リスト
- Content-style disentangled representation for controllable artistic image stylization and generation [0.0]
制御可能な芸術的イメージスタイリングと生成は、テキストや画像が提供するコンテンツを学習された芸術的スタイルでレンダリングすることを目的としている。
本稿では,芸術的イメージのスタイル化と生成を制御可能なコンテンツスタイルの表現分離手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T03:42:58Z) - Z-STAR+: A Zero-shot Style Transfer Method via Adjusting Style Distribution [24.88532732093652]
スタイル転送は重要な課題であり、主に適切なスタイル表現を特定することに焦点を当てている。
既存の手法とは対照的に,バニラ拡散モデルにおける潜在的特徴が自然的スタイルや内容分布を本質的に含んでいることが判明した。
提案手法では,コンテンツ参照とスタイル参照を遅延空間で表現するために,デュアル・デノナイズ・パスを採用し,その後,スタイル遅延符号を用いたコンテントイメージ・デノナイズ・プロセスの導出を行う。
論文 参考訳(メタデータ) (2024-11-28T15:56:17Z) - DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - D2Styler: Advancing Arbitrary Style Transfer with Discrete Diffusion Methods [2.468658581089448]
D$2$Styler (Discrete Diffusion Styler) と呼ばれる新しいフレームワークを提案する。
本手法では,アダプティブインスタンス正規化(AdaIN)機能を逆拡散過程のコンテキストガイドとして用いる。
実験により、D$2$Stylerは高品質なスタイル変換画像を生成することが示された。
論文 参考訳(メタデータ) (2024-08-07T05:47:06Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Portrait Diffusion: Training-free Face Stylization with
Chain-of-Painting [64.43760427752532]
顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。
現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。
本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:48:35Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。