論文の概要: Leveraging Diffusion Models for Stylization using Multiple Style Images
- arxiv url: http://arxiv.org/abs/2508.12784v1
- Date: Mon, 18 Aug 2025 10:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.173336
- Title: Leveraging Diffusion Models for Stylization using Multiple Style Images
- Title(参考訳): 複数スタイル画像を用いたスティル化の拡散モデル
- Authors: Dan Ruta, Abdelaziz Djelouah, Raphael Ortiz, Christopher Schroers,
- Abstract要約: 本稿では,スタイル特徴をよりよく表現し,スタイル画像からのコンテンツ漏洩を防止するために,複数のスタイル画像を活用することを提案する。
本手法では,本方式のサンプルから抽出した多数の注目値から,少数の注目特徴集合を抽出するためにクラスタリングを用いる。
得られた手法は、スタイル化のための最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 11.659032530565883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in latent diffusion models have enabled exciting progress in image style transfer. However, several key issues remain. For example, existing methods still struggle to accurately match styles. They are often limited in the number of style images that can be used. Furthermore, they tend to entangle content and style in undesired ways. To address this, we propose leveraging multiple style images which helps better represent style features and prevent content leaking from the style images. We design a method that leverages both image prompt adapters and statistical alignment of the features during the denoising process. With this, our approach is designed such that it can intervene both at the cross-attention and the self-attention layers of the denoising UNet. For the statistical alignment, we employ clustering to distill a small representative set of attention features from the large number of attention values extracted from the style samples. As demonstrated in our experimental section, the resulting method achieves state-of-the-art results for stylization.
- Abstract(参考訳): 遅延拡散モデルの最近の進歩は、画像スタイル転送のエキサイティングな進歩を可能にしている。
しかし、いくつかの重要な問題が残っている。
例えば、既存のメソッドはスタイルを正確にマッチさせるのに苦労しています。
使用可能なスタイル画像の数に制限されることが多い。
さらに、望ましくない方法で内容やスタイルを絡み合わせる傾向にある。
そこで本研究では,スタイル特徴の表現性の向上と,スタイル画像からのコンテンツ漏洩を防止するために,複数のスタイル画像を活用することを提案する。
本稿では,画像プロンプトアダプタと特徴量の統計的アライメントを両立させる手法を設計する。
これにより,本手法は,UNetのクロスアテンション層と自己アテンション層の両方に介入できるように設計されている。
統計的アライメントのために、我々はクラスタリングを用いて、スタイルサンプルから抽出された多数の注目値から、少数の注目特徴を抽出する。
実験セクションで示すように,本手法はスタイル化のための最先端の手法である。
関連論文リスト
- Less is More: Masking Elements in Image Condition Features Avoids Content Leakages in Style Transfer Diffusion Models [44.4106999443933]
スタイル参照画像からコンテンツとスタイルを効率的に分離するマスキング方式を提案する。
スタイル参照のイメージ特徴の特定の要素を単にマスキングすることで、批判的だが未調査の原則を明らかにする。
論文 参考訳(メタデータ) (2025-02-11T11:17:39Z) - Z-STAR+: A Zero-shot Style Transfer Method via Adjusting Style Distribution [24.88532732093652]
スタイル転送は重要な課題であり、主に適切なスタイル表現を特定することに焦点を当てている。
既存の手法とは対照的に,バニラ拡散モデルにおける潜在的特徴が自然的スタイルや内容分布を本質的に含んでいることが判明した。
提案手法では,コンテンツ参照とスタイル参照を遅延空間で表現するために,デュアル・デノナイズ・パスを採用し,その後,スタイル遅延符号を用いたコンテントイメージ・デノナイズ・プロセスの導出を行う。
論文 参考訳(メタデータ) (2024-11-28T15:56:17Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。