論文の概要: Content-style disentangled representation for controllable artistic image stylization and generation
- arxiv url: http://arxiv.org/abs/2412.14496v1
- Date: Thu, 19 Dec 2024 03:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:28.748510
- Title: Content-style disentangled representation for controllable artistic image stylization and generation
- Title(参考訳): 制御可能な芸術的イメージスタイリングと生成のためのコンテンツスタイルのアンタングル表現
- Authors: Ma Zhuoqi, Zhang Yixuan, You Zejun, Tian Long, Liu Xiyang,
- Abstract要約: 制御可能な芸術的イメージスタイリングと生成は、テキストや画像が提供するコンテンツを学習された芸術的スタイルでレンダリングすることを目的としている。
本稿では,芸術的イメージのスタイル化と生成を制御可能なコンテンツスタイルの表現分離手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Controllable artistic image stylization and generation aims to render the content provided by text or image with the learned artistic style, where content and style decoupling is the key to achieve satisfactory results. However, current methods for content and style disentanglement primarily rely on image information for supervision, which leads to two problems: 1) models can only support one modality for style or content input;2) incomplete disentanglement resulting in semantic interference from the reference image. To address the above issues, this paper proposes a content-style representation disentangling method for controllable artistic image stylization and generation. We construct a WikiStyle+ dataset consists of artworks with corresponding textual descriptions for style and content. Based on the multimodal dataset, we propose a disentangled content and style representations guided diffusion model. The disentangled representations are first learned by Q-Formers and then injected into a pre-trained diffusion model using learnable multi-step cross-attention layers for better controllable stylization. This approach allows model to accommodate inputs from different modalities. Experimental results show that our method achieves a thorough disentanglement of content and style in reference images under multimodal supervision, thereby enabling a harmonious integration of content and style in the generated outputs, successfully producing style-consistent and expressive stylized images.
- Abstract(参考訳): 制御可能な芸術的イメージスタイリングと生成は、テキストや画像が提供するコンテンツを、学習された芸術的スタイルでレンダリングすることを目的としており、そこでは、コンテンツとスタイルの疎結合が満足のいく結果を達成する鍵となる。
しかし、コンテンツとスタイルのゆがみに対する現在の手法は、主に監督のための画像情報に依存しており、2つの問題に繋がる。
1) モデルでは, スタイルやコンテンツ入力に対する1つのモダリティしかサポートできない。
以上の課題に対処するために,芸術的画像のスタイリングと生成を制御可能なコンテンツスタイルの表現分離手法を提案する。
WikiStyle+のデータセットは,スタイルとコンテンツに関するテキスト記述を伴うアートワークで構成されている。
マルチモーダルデータセットに基づいて,拡散モデルに基づくコンテンツとスタイル表現を提案する。
歪んだ表現はまずQ-Formersによって学習され、学習可能な多段階のクロスアテンション層を用いて事前学習された拡散モデルに注入される。
このアプローチにより、モデルは異なるモダリティからの入力を許容できる。
実験結果から,本手法は,マルチモーダル監督下での参照画像におけるコンテンツとスタイルの徹底的な切り離しを実現し,生成した出力におけるコンテンツとスタイルの調和的な統合を実現し,一貫性と表現力のあるスタイル化画像の製作に成功した。
関連論文リスト
- Less is More: Masking Elements in Image Condition Features Avoids Content Leakages in Style Transfer Diffusion Models [44.4106999443933]
スタイル参照画像からコンテンツとスタイルを効率的に分離するマスキング方式を提案する。
スタイル参照のイメージ特徴の特定の要素を単にマスキングすることで、批判的だが未調査の原則を明らかにする。
論文 参考訳(メタデータ) (2025-02-11T11:17:39Z) - DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - Customizing Text-to-Image Models with a Single Image Pair [47.49970731632113]
芸術再解釈(Art repretation)は、参照された作品のバリエーションを作成し、異なる芸術様式を示すペアアートを作るプラクティスである。
Pair Customizationは1つの画像対からスタイリスティックな違いを学習し、取得したスタイルを生成プロセスに適用する新しいカスタマイズ手法である。
論文 参考訳(メタデータ) (2024-05-02T17:59:52Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。