論文の概要: WikiStyle+: A Multimodal Approach to Content-Style Representation Disentanglement for Artistic Image Stylization
- arxiv url: http://arxiv.org/abs/2412.14496v2
- Date: Sat, 12 Apr 2025 15:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 19:48:45.551226
- Title: WikiStyle+: A Multimodal Approach to Content-Style Representation Disentanglement for Artistic Image Stylization
- Title(参考訳): WikiStyle+:芸術的画像スティル化のためのコンテンツスタイル表現のマルチモーダルアプローチ
- Authors: Ma Zhuoqi, Zhang Yixuan, You Zejun, Tian Long, Liu Xiyang,
- Abstract要約: 芸術的なイメージスタイリングは、テキストや画像が提供するコンテンツをターゲットスタイルでレンダリングすることを目的としている。
コンテンツとスタイルのゆがみの現在の手法は、画像の監督に依存している。
本稿では,芸術的イメージスタイリングのためのコンテンツスタイルのゆがみに対するマルチモーダルアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artistic image stylization aims to render the content provided by text or image with the target style, where content and style decoupling is the key to achieve satisfactory results. However, current methods for content and style disentanglement primarily rely on image supervision, which leads to two problems: 1) models can only support one modality for style or content input;2) incomplete disentanglement resulting in content leakage from the reference image. To address the above issues, this paper proposes a multimodal approach to content-style disentanglement for artistic image stylization. We construct a \textit{WikiStyle+} dataset consists of artworks with corresponding textual descriptions for style and content. Based on the multimodal dataset, we propose a disentangled representations-guided diffusion model. The disentangled representations are first learned by Q-Formers and then injected into a pre-trained diffusion model using learnable multi-step cross-attention layers. Experimental results show that our method achieves a thorough disentanglement of content and style in reference images under multimodal supervision, thereby enabling more refined stylization that aligns with the artistic characteristics of the reference style. The code of our method will be available upon acceptance.
- Abstract(参考訳): 芸術的なイメージスタイリングは、テキストや画像が提供するコンテンツをターゲットスタイルでレンダリングすることを目的としており、そこではコンテンツとスタイルの疎結合が満足のいく結果を達成する鍵となる。
しかし、コンテンツとスタイルのゆがみに対する現在の手法は、主にイメージの監督に依存しており、2つの問題に繋がる。
1) モデルでは, スタイルやコンテンツ入力に対する1つのモダリティしかサポートできない。
以上の課題に対処するために,芸術的イメージスタイリングのためのコンテンツスタイルのゆがみに対するマルチモーダルアプローチを提案する。
スタイルとコンテンツに関するテキスト記述を備えたアートワークからなる,‘textit{WikiStyle+} データセットを構築した。
マルチモーダルデータセットに基づいて,非交叉表現誘導拡散モデルを提案する。
歪んだ表現はまずQ-Formersによって学習され、学習可能な多段階のクロスアテンション層を用いて事前学習された拡散モデルに注入される。
実験結果から,本手法は,マルチモーダル監督下での参照画像における内容とスタイルの徹底的な切り離しを実現し,参照スタイルの芸術的特徴と整合したより洗練されたスタイリゼーションを実現する。
私たちのメソッドのコードは受け入れ次第利用可能です。
関連論文リスト
- Less is More: Masking Elements in Image Condition Features Avoids Content Leakages in Style Transfer Diffusion Models [44.4106999443933]
スタイル参照画像からコンテンツとスタイルを効率的に分離するマスキング方式を提案する。
スタイル参照のイメージ特徴の特定の要素を単にマスキングすることで、批判的だが未調査の原則を明らかにする。
論文 参考訳(メタデータ) (2025-02-11T11:17:39Z) - Z-STAR+: A Zero-shot Style Transfer Method via Adjusting Style Distribution [24.88532732093652]
スタイル転送は重要な課題であり、主に適切なスタイル表現を特定することに焦点を当てている。
既存の手法とは対照的に,バニラ拡散モデルにおける潜在的特徴が自然的スタイルや内容分布を本質的に含んでいることが判明した。
提案手法では,コンテンツ参照とスタイル参照を遅延空間で表現するために,デュアル・デノナイズ・パスを採用し,その後,スタイル遅延符号を用いたコンテントイメージ・デノナイズ・プロセスの導出を行う。
論文 参考訳(メタデータ) (2024-11-28T15:56:17Z) - Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。
本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:34:57Z) - DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。
本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文 参考訳(メタデータ) (2024-08-18T14:27:20Z) - Artist: Aesthetically Controllable Text-Driven Stylization without Training [19.5597806965592]
テキスト駆動型スタイリングのための事前学習拡散モデルのコンテンツとスタイル生成を審美的に制御する,トレーニング不要なアプローチである textbfArtist を導入する。
私たちのキーとなる洞察は、コンテンツとスタイルを分離した拡散プロセスに分割し、情報を共有することです。
本手法は, 審美レベルのスタイリゼーション要件の達成, コンテンツイメージの複雑な詳細の保存, スタイルプロンプトの整合性に優れる。
論文 参考訳(メタデータ) (2024-07-22T17:58:05Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Arbitrary Style Transfer via Multi-Adaptation Network [109.6765099732799]
所望のスタイル転送は、内容画像と参照されたスタイル絵が与えられた場合、そのスタイル絵の色調と鮮やかなストロークパターンで内容画像を描画する。
新たな不整合損失関数により,本ネットワークは,様々な入力画像に適応する主文パターンと正確なコンテンツ構造を抽出できる。
論文 参考訳(メタデータ) (2020-05-27T08:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。