論文の概要: V-Shuffle: Zero-Shot Style Transfer via Value Shuffle
- arxiv url: http://arxiv.org/abs/2511.06365v1
- Date: Sun, 09 Nov 2025 13:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.907458
- Title: V-Shuffle: Zero-Shot Style Transfer via Value Shuffle
- Title(参考訳): Vシャッフル:値シャッフルによるゼロショットスタイルの転送
- Authors: Haojun Tang, Qiwei Lin, Tongda Xu, Lida Huang, Yan Wang,
- Abstract要約: V-Shuffleは、同じスタイルドメインから複数のスタイルイメージを活用するゼロショットスタイル転送方式である。
V-Shuffleは、自己アテンション層内の値の特徴をシャッフルすることで、スタイルイメージのセマンティックコンテンツを暗黙的に破壊する。
本稿では,これらの低レベル表現を高レベルなテクスチャで補完し,スタイルの忠実度を高めるハイブリッドスタイル正規化を提案する。
- 参考スコア(独自算出の注目度): 10.36232008802594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention injection-based style transfer has achieved remarkable progress in recent years. However, existing methods often suffer from content leakage, where the undesired semantic content of the style image mistakenly appears in the stylized output. In this paper, we propose V-Shuffle, a zero-shot style transfer method that leverages multiple style images from the same style domain to effectively navigate the trade-off between content preservation and style fidelity. V-Shuffle implicitly disrupts the semantic content of the style images by shuffling the value features within the self-attention layers of the diffusion model, thereby preserving low-level style representations. We further introduce a Hybrid Style Regularization that complements these low-level representations with high-level style textures to enhance style fidelity. Empirical results demonstrate that V-Shuffle achieves excellent performance when utilizing multiple style images. Moreover, when applied to a single style image, V-Shuffle outperforms previous state-of-the-art methods.
- Abstract(参考訳): 近年,注意注射によるスタイル伝達は顕著な進歩を遂げている。
しかし、既存の手法は、しばしばコンテンツのリークに悩まされ、スタイル画像の望ましくないセマンティックな内容が誤ってスタイリングされた出力に現れる。
本稿では、同じスタイル領域から複数のスタイル画像を活用するゼロショットスタイル転送方式であるV-Shuffleを提案し、コンテンツ保存とスタイル忠実性のトレードオフを効果的にナビゲートする。
V-Shuffleは拡散モデルの自己アテンション層内の値特徴をシャッフルすることにより、スタイル画像の意味内容を暗黙的に破壊し、低レベルなスタイル表現を保存する。
さらに、これらの低レベルの表現を高レベルのスタイルテクスチャで補完し、スタイルの忠実度を高めるハイブリッドスタイル正規化を導入する。
実験により,V-Shuffleは複数のスタイル画像を利用する場合,優れた性能を発揮することが示された。
さらに、単一のスタイルの画像に適用した場合、V-Shuffleは従来の最先端の手法よりも優れている。
関連論文リスト
- Leveraging Diffusion Models for Stylization using Multiple Style Images [11.659032530565883]
本稿では,スタイル特徴をよりよく表現し,スタイル画像からのコンテンツ漏洩を防止するために,複数のスタイル画像を活用することを提案する。
本手法では,本方式のサンプルから抽出した多数の注目値から,少数の注目特徴集合を抽出するためにクラスタリングを用いる。
得られた手法は、スタイル化のための最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-08-18T10:00:41Z) - D2Styler: Advancing Arbitrary Style Transfer with Discrete Diffusion Methods [2.468658581089448]
D$2$Styler (Discrete Diffusion Styler) と呼ばれる新しいフレームワークを提案する。
本手法では,アダプティブインスタンス正規化(AdaIN)機能を逆拡散過程のコンテキストガイドとして用いる。
実験により、D$2$Stylerは高品質なスタイル変換画像を生成することが示された。
論文 参考訳(メタデータ) (2024-08-07T05:47:06Z) - Rethink Arbitrary Style Transfer with Transformer and Contrastive Learning [11.900404048019594]
本稿では,スタイリング画像の品質向上のための革新的手法を提案する。
まず、コンテンツとスタイルの特徴の整合性を改善する手法であるスタイル一貫性インスタンス正規化(SCIN)を提案する。
さらに,様々なスタイル間の関係を理解するために,インスタンスベースのコントラスト学習(ICL)アプローチを開発した。
論文 参考訳(メタデータ) (2024-04-21T08:52:22Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - InstaStyle: Inversion Noise of a Stylized Image is Secretly a Style Adviser [19.466860144772674]
本稿では,単一の参照画像のみを用いて高忠実度スタイリング画像を生成する手法であるInstaStyleを提案する。
提案手法は,スタイリングされた参照画像からの逆ノイズが本質的にスタイル信号を運ぶことに基づく。
本稿では,参照画像のスタイル記述の精度を高めるために,プロンプトリファインメントによる学習可能なスタイルトークンを提案する。
論文 参考訳(メタデータ) (2023-11-25T14:38:54Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。