論文の概要: Break Stylistic Sophon: Are We Really Meant to Confine the Imagination in Style Transfer?
- arxiv url: http://arxiv.org/abs/2506.15033v1
- Date: Wed, 18 Jun 2025 00:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.511819
- Title: Break Stylistic Sophon: Are We Really Meant to Confine the Imagination in Style Transfer?
- Title(参考訳): Break Stylistic Sophon:我々は、スタイル転送におけるイマジネーションを抑えるために本当に意味があるのか?
- Authors: Gary Song Yan, Yusen Zhang, Jinyu Zhao, Hao Zhang, Zhangping Yang, Guanye Xiong, Yanfei Liu, Tao Zhang, Yujie He, Siyuan Tian, Yao Gou, Min Li,
- Abstract要約: StyleWallfacerは、統一的なトレーニングと推論フレームワークである。
従来の方法のスタイル転送プロセスで発生する様々な問題に対処する。
アーティストレベルのスタイル転送とテキスト駆動のスタイル化を提供する。
- 参考スコア(独自算出の注目度): 12.2238770989173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this pioneering study, we introduce StyleWallfacer, a groundbreaking unified training and inference framework, which not only addresses various issues encountered in the style transfer process of traditional methods but also unifies the framework for different tasks. This framework is designed to revolutionize the field by enabling artist level style transfer and text driven stylization. First, we propose a semantic-based style injection method that uses BLIP to generate text descriptions strictly aligned with the semantics of the style image in CLIP space. By leveraging a large language model to remove style-related descriptions from these descriptions, we create a semantic gap. This gap is then used to fine-tune the model, enabling efficient and drift-free injection of style knowledge. Second, we propose a data augmentation strategy based on human feedback, incorporating high-quality samples generated early in the fine-tuning process into the training set to facilitate progressive learning and significantly reduce its overfitting. Finally, we design a training-free triple diffusion process using the fine-tuned model, which manipulates the features of self-attention layers in a manner similar to the cross-attention mechanism. Specifically, in the generation process, the key and value of the content-related process are replaced with those of the style-related process to inject style while maintaining text control over the model. We also introduce query preservation to mitigate disruptions to the original content. Under such a design, we have achieved high-quality image-driven style transfer and text-driven stylization, delivering artist-level style transfer results while preserving the original image content. Moreover, we achieve image color editing during the style transfer process for the first time.
- Abstract(参考訳): この先駆的な研究では、従来のメソッドのスタイル転送プロセスで発生する様々な問題に対処するだけでなく、異なるタスクのためのフレームワークを統一する、画期的な統合トレーニングおよび推論フレームワークであるStyleWallfacerを紹介します。
このフレームワークは、アーティストレベルのスタイル転送とテキスト駆動のスタイル化を可能にして、フィールドに革命をもたらすように設計されている。
まず、BLIPを用いて、CLIP空間のスタイルイメージのセマンティクスに厳密に整合したテキスト記述を生成するセマンティクスベースのスタイルインジェクション手法を提案する。
これらの記述からスタイルに関連した記述を除去するために、大きな言語モデルを活用することで、セマンティックギャップを創出する。
このギャップはモデルを微調整するために使われ、スタイル知識の効率的でドリフトフリーな注入を可能にします。
第2に、人間のフィードバックに基づくデータ強化戦略を提案し、微調整プロセスの初期段階で生成された高品質なサンプルをトレーニングセットに組み込むことにより、進歩的な学習を容易にし、過度な適合を著しく低減する。
最後に, 自己注意層の特徴をクロスアテンション機構に類似した方法で操作する微調整モデルを用いて, トレーニング不要な3重拡散過程を設計する。
具体的には、生成プロセスにおいて、コンテンツ関連プロセスのキーと値がスタイル関連プロセスのキーに置き換わり、モデルに対するテキスト制御を維持しながらスタイルを注入する。
また、元のコンテンツに対する破壊を緩和するためにクエリ保存を導入する。
このような設計の下で、我々は高品質な画像駆動型スタイル転送とテキスト駆動型スタイル化を実現し、オリジナル画像コンテンツを保存しながらアーティストレベルのスタイル転送結果を提供する。
さらに,スタイル伝達過程における画像色編集を初めて行う。
関連論文リスト
- DiffArtist: Towards Structure and Appearance Controllable Image Stylization [19.5597806965592]
本稿では2次元画像の構造と外観の同時スタイリングについて包括的に研究する。
DiffArtistは、構造と外観の二重制御を可能にする最初のスタイリング手法である。
論文 参考訳(メタデータ) (2024-07-22T17:58:05Z) - InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation [4.1177497612346]
スタイル転送(Style Transfer)は、視覚的なスタイルを取り入れながら、オリジナルの本質を維持するイメージを作成するために設計された革新的なプロセスである。
InstantStyle-Plusは、ターゲットスタイルをシームレスに統合しながら、オリジナルコンテンツの整合性を優先するアプローチである。
論文 参考訳(メタデータ) (2024-06-30T18:05:33Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。