Fugu-MT 論文翻訳(概要): $Z^*$: Zero-shot Style Transfer via Attention Rearrangement

論文の概要: $Z^*$: Zero-shot Style Transfer via Attention Rearrangement

arxiv url: http://arxiv.org/abs/2311.16491v1
Date: Sat, 25 Nov 2023 11:03:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 20:15:15.663954
Title: $Z^*$: Zero-shot Style Transfer via Attention Rearrangement
Title（参考訳）: Z^*$: 注意再配置によるゼロショットスタイルの転送
Authors: Yingying Deng, Xiangyu He, Fan Tang, Weiming Dong
Abstract要約: 本研究では,バニラ拡散モデルが直接スタイル情報を抽出し,生成前の情報をコンテンツイメージにシームレスに統合できることを示す。我々は、遅延空間におけるコンテンツ/スタイル参照を表すために、デュアル・デノナイズ・パスを採用し、次に、スタイル・レイト・コードでコンテンツ・イメージ・デノナイズ・プロセスをガイドする。
参考スコア（独自算出の注目度）: 27.185432348397693
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Despite the remarkable progress in image style transfer, formulating style in the context of art is inherently subjective and challenging. In contrast to existing learning/tuning methods, this study shows that vanilla diffusion models can directly extract style information and seamlessly integrate the generative prior into the content image without retraining. Specifically, we adopt dual denoising paths to represent content/style references in latent space and then guide the content image denoising process with style latent codes. We further reveal that the cross-attention mechanism in latent diffusion models tends to blend the content and style images, resulting in stylized outputs that deviate from the original content image. To overcome this limitation, we introduce a cross-attention rearrangement strategy. Through theoretical analysis and experiments, we demonstrate the effectiveness and superiority of the diffusion-based $\underline{Z}$ero-shot $\underline{S}$tyle $\underline{T}$ransfer via $\underline{A}$ttention $\underline{R}$earrangement, Z-STAR.
Abstract（参考訳）: イメージスタイル転送の著しい進歩にもかかわらず、芸術の文脈における定式化スタイルは本質的に主観的で挑戦的なものである。既存の学習/チューニング手法とは対照的に,バニラ拡散モデルが直接スタイル情報を抽出し,再トレーニングすることなく生成前処理をコンテンツ画像にシームレスに統合できることを示す。具体的には、コンテンツ/スタイルの参照を潜在空間で表現し、その後、スタイル潜在コードでコンテンツイメージの表示プロセスをガイドするデュアル・デノイジングパスを採用する。さらに, 潜在拡散モデルにおけるクロスアテンション機構は, コンテンツとスタイル画像とをブレンドする傾向があり, 結果として, 元のコンテンツ画像から逸脱するスタイリッシュな出力が得られることを明らかにした。この限界を克服するため,我々はクロスアテンション・リレンジメント戦略を導入する。理論的解析と実験により、拡散に基づく $\underline{Z}$ero-shot $\underline{S}$tyle $\underline{T}$ransfer via $\underline{A}$ttention $\underline{R}$arrangement, Z-STAR の有効性と優位性を示す。

関連論文リスト

WikiStyle+: A Multimodal Approach to Content-Style Representation Disentanglement for Artistic Image Stylization [0.0]
芸術的なイメージスタイリングは、テキストや画像が提供するコンテンツをターゲットスタイルでレンダリングすることを目的としている。コンテンツとスタイルのゆがみの現在の手法は、画像の監督に依存している。本稿では,芸術的イメージスタイリングのためのコンテンツスタイルのゆがみに対するマルチモーダルアプローチを提案する。
論文参考訳（メタデータ） (2024-12-19T03:42:58Z)
Z-STAR+: A Zero-shot Style Transfer Method via Adjusting Style Distribution [24.88532732093652]
スタイル転送は重要な課題であり、主に適切なスタイル表現を特定することに焦点を当てている。既存の手法とは対照的に,バニラ拡散モデルにおける潜在的特徴が自然的スタイルや内容分布を本質的に含んでいることが判明した。提案手法では,コンテンツ参照とスタイル参照を遅延空間で表現するために,デュアル・デノナイズ・パスを採用し,その後,スタイル遅延符号を用いたコンテントイメージ・デノナイズ・プロセスの導出を行う。
論文参考訳（メタデータ） (2024-11-28T15:56:17Z)
DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文参考訳（メタデータ） (2024-10-19T06:42:43Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
D2Styler: Advancing Arbitrary Style Transfer with Discrete Diffusion Methods [2.468658581089448]
D$2$Styler (Discrete Diffusion Styler) と呼ばれる新しいフレームワークを提案する。本手法では,アダプティブインスタンス正規化(AdaIN)機能を逆拡散過程のコンテキストガイドとして用いる。実験により、D$2$Stylerは高品質なスタイル変換画像を生成することが示された。
論文参考訳（メタデータ） (2024-08-07T05:47:06Z)
Artist: Aesthetically Controllable Text-Driven Stylization without Training [19.5597806965592]
テキスト駆動型スタイリングのための事前学習拡散モデルのコンテンツとスタイル生成を審美的に制御する,トレーニング不要なアプローチである textbfArtist を導入する。私たちのキーとなる洞察は、コンテンツとスタイルを分離した拡散プロセスに分割し、情報を共有することです。本手法は, 審美レベルのスタイリゼーション要件の達成, コンテンツイメージの複雑な詳細の保存, スタイルプロンプトの整合性に優れる。
論文参考訳（メタデータ） (2024-07-22T17:58:05Z)
ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文参考訳（メタデータ） (2024-05-24T07:19:40Z)
Portrait Diffusion: Training-free Face Stylization with Chain-of-Painting [64.43760427752532]
顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-03T06:48:35Z)
ALADIN-NST: Self-supervised disentangled representation learning of artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文参考訳（メタデータ） (2023-04-12T10:33:18Z)
DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文参考訳（メタデータ） (2022-11-19T12:30:44Z)
Diffusion-based Image Translation using Disentangled Style and Content Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。逆拡散中、画像の原内容を維持することはしばしば困難である。本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-09-30T06:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。