論文の概要: Free-Lunch Color-Texture Disentanglement for Stylized Image Generation
- arxiv url: http://arxiv.org/abs/2503.14275v2
- Date: Fri, 21 Mar 2025 08:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 11:33:45.448739
- Title: Free-Lunch Color-Texture Disentanglement for Stylized Image Generation
- Title(参考訳): スティル化画像生成のためのフリーランチカラーテクスチャ展開
- Authors: Jiang Qin, Senmao Li, Alexandra Gomez-Villa, Shiqi Yang, Yaxing Wang, Kai Wang, Joost van de Weijer,
- Abstract要約: 本稿では,タイマライズされたT2I生成において,フリーランチなカラーテクスチャ・ディコンタングルを実現するための,最初のチューニング自由アプローチを提案する。
色とテクスチャの基準画像からCTE(Color-Texture Embeddings)を分離・抽出する技術を開発した。
生成した画像の色パレットが色基準と密接に一致していることを確認するため、白と彩色変換を適用する。
- 参考スコア(独自算出の注目度): 58.406368812760256
- License:
- Abstract: Recent advances in Text-to-Image (T2I) diffusion models have transformed image generation, enabling significant progress in stylized generation using only a few style reference images. However, current diffusion-based methods struggle with fine-grained style customization due to challenges in controlling multiple style attributes, such as color and texture. This paper introduces the first tuning-free approach to achieve free-lunch color-texture disentanglement in stylized T2I generation, addressing the need for independently controlled style elements for the Disentangled Stylized Image Generation (DisIG) problem. Our approach leverages the Image-Prompt Additivity property in the CLIP image embedding space to develop techniques for separating and extracting Color-Texture Embeddings (CTE) from individual color and texture reference images. To ensure that the color palette of the generated image aligns closely with the color reference, we apply a whitening and coloring transformation to enhance color consistency. Additionally, to prevent texture loss due to the signal-leak bias inherent in diffusion training, we introduce a noise term that preserves textural fidelity during the Regularized Whitening and Coloring Transformation (RegWCT). Through these methods, our Style Attributes Disentanglement approach (SADis) delivers a more precise and customizable solution for stylized image generation. Experiments on images from the WikiArt and StyleDrop datasets demonstrate that, both qualitatively and quantitatively, SADis surpasses state-of-the-art stylization methods in the DisIG task.Code will be released at https://deepffff.github.io/sadis.github.io/.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデル(T2I)の最近の進歩は、画像生成を変換し、少数のスタイルの参照画像のみを用いて、スタイリング生成を大幅に進歩させた。
しかし、現在の拡散法は、色やテクスチャといった複数のスタイル属性を制御することの難しさから、きめ細かいスタイルのカスタマイズに苦慮している。
本稿では,Distangled Stylized Image Generation (DisIG) 問題に対して,独立に制御されたスタイル要素の必要性に対処する。
提案手法は,CLIP画像埋め込み空間におけるイメージ・プロンプト付加性を利用して,色とテクスチャの基準画像からカラーテクスチャ埋め込み(CTE)を分離・抽出する手法を開発した。
生成した画像の色パレットが色基準と密接に一致していることを確認するため,色整合性を高めるために白と着色変換を適用した。
また,拡散訓練に固有の信号漏れバイアスによるテクスチャ損失を防止するため,正規化白化色調変換(RegWCT)において,テクスチャの忠実さを保ったノイズ項を導入する。
これらの方法を通じて、我々のスタイル属性分散アプローチ(SADis)は、より正確でカスタマイズ可能な、スタイリングされた画像生成ソリューションを提供する。
WikiArtとStyleDropのデータセットの画像による実験では、SADisは定性的にも定量的にも、DisIGタスクの最先端のスタイリングメソッドを上回り、コードもhttps://deepff.github.io/sadis.github.io/でリリースされる。
関連論文リスト
- Paint Bucket Colorization Using Anime Character Color Design Sheets [72.66788521378864]
ネットワークがセグメント間の関係を理解することができる包摂的マッチングを導入する。
ネットワークのトレーニングパイプラインは、カラー化と連続フレームカラー化の両方のパフォーマンスを著しく向上させる。
ネットワークのトレーニングをサポートするために、PaintBucket-Characterというユニークなデータセットを開発しました。
論文 参考訳(メタデータ) (2024-10-25T09:33:27Z) - MagicStyle: Portrait Stylization Based on Reference Image [0.562479170374811]
そこで我々は,MagicStyleと呼ばれるポートレートに特化して,拡散モデルに基づく参照画像スタイリング手法を提案する。
Cフェーズは、DDIMインバージョンをコンテンツイメージとスタイルイメージとで別々に実行し、インバージョンプロセス中に両方の画像の自己アテンションクエリ、キーと値の特徴を格納するリバースデノナイズ処理を含む。
FFFフェーズは、事前記憶された特徴クエリ、キー、値からのテクスチャと色情報を、よく設計された特徴融合注意(FFA)に基づいて拡散生成プロセスに統合する。
論文 参考訳(メタデータ) (2024-09-12T15:51:09Z) - Training-free Color-Style Disentanglement for Constrained Text-to-Image Synthesis [16.634138745034733]
そこで本研究では,参照画像から色とスタイル属性のテキスト・ツー・イメージを分離する,最初のトレーニングフリーでテスト時間のみの手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T04:16:58Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。
本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。
我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文 参考訳(メタデータ) (2023-12-07T08:59:20Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - Portrait Diffusion: Training-free Face Stylization with
Chain-of-Painting [64.43760427752532]
顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。
現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。
本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:48:35Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - Deep Line Art Video Colorization with a Few References [49.7139016311314]
そこで本稿では,対象の参照画像と同一のカラースタイルでラインアートビデオを自動的に色付けする深層アーキテクチャを提案する。
本フレームワークはカラートランスフォーメーションネットワークと時間制約ネットワークから構成される。
本モデルでは,少量のサンプルでパラメータを微調整することで,より優れたカラー化を実現することができる。
論文 参考訳(メタデータ) (2020-03-24T06:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。