論文の概要: StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements
- arxiv url: http://arxiv.org/abs/2412.08503v1
- Date: Wed, 11 Dec 2024 16:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:11.456573
- Title: StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements
- Title(参考訳): StyleStudio:スタイル要素の選択制御によるテキスト駆動型スタイル転送
- Authors: Mingkun Lei, Xue Song, Beier Zhu, Hao Wang, Chi Zhang,
- Abstract要約: テキスト駆動型スタイル転送は、参照イメージのスタイルとテキストプロンプトによって記述されたコンテンツとをマージすることを目的としている。
テキスト・ツー・イメージ・モデルの最近の進歩はニュアンス・スタイルの変換を改善しているが、大きな課題は残る。
これらの問題に対処するための3つの補完戦略を提案する。
- 参考スコア(独自算出の注目度): 10.752464085587267
- License:
- Abstract: Text-driven style transfer aims to merge the style of a reference image with content described by a text prompt. Recent advancements in text-to-image models have improved the nuance of style transformations, yet significant challenges remain, particularly with overfitting to reference styles, limiting stylistic control, and misaligning with textual content. In this paper, we propose three complementary strategies to address these issues. First, we introduce a cross-modal Adaptive Instance Normalization (AdaIN) mechanism for better integration of style and text features, enhancing alignment. Second, we develop a Style-based Classifier-Free Guidance (SCFG) approach that enables selective control over stylistic elements, reducing irrelevant influences. Finally, we incorporate a teacher model during early generation stages to stabilize spatial layouts and mitigate artifacts. Our extensive evaluations demonstrate significant improvements in style transfer quality and alignment with textual prompts. Furthermore, our approach can be integrated into existing style transfer frameworks without fine-tuning.
- Abstract(参考訳): テキスト駆動型スタイル転送は、参照イメージのスタイルとテキストプロンプトによって記述されたコンテンツとをマージすることを目的としている。
近年のテクスト・ツー・イメージ・モデルの発展により、スタイル変換のニュアンスが改善されているが、特に参照スタイルへの過度な適合、スタイル制御の制限、テキストコンテンツの誤調整など、大きな課題が残っている。
本稿では,これらの問題に対処するための3つの補完戦略を提案する。
まず,アダプティブ・インスタンス正規化(AdaIN)機構を導入し,スタイルやテキスト機能との統合性を向上し,アライメントの強化を図る。
第2に、スタイルベースの分類自由誘導(SCFG)アプローチを開発し、スタイリスティックな要素を選択的に制御し、無関係な影響を減らす。
最後に,初期段階の教師モデルを導入し,空間配置の安定化とアーティファクトの緩和を図る。
提案手法の広汎な評価は,スタイル伝達品質とテキストプロンプトとの整合性を大幅に向上させたことを示す。
さらに、我々のアプローチは微調整なしで既存のスタイル転送フレームワークに統合できる。
関連論文リスト
- Tuning-Free Adaptive Style Incorporation for Structure-Consistent Text-Driven Style Transfer [35.565157182236014]
テキスト駆動型スタイル転送タスク,すなわちAdaptive Style Incorporation(ASI)に対する新しいソリューションを提案する。
Siamese Cross-(SiCA)は、シングルトラックのクロスアテンションをデュアルトラック構造に分離し、コンテンツとスタイルの特徴を分離し、Adaptive Content-Style Blending (AdaBlending)モジュールは、コンテンツとスタイル情報を構造一貫性のある方法で結合する。
実験により, 構造保存とスタイリング効果の両面において, 優れた性能を示した。
論文 参考訳(メタデータ) (2024-04-10T08:54:00Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - MSSRNet: Manipulating Sequential Style Representation for Unsupervised
Text Style Transfer [82.37710853235535]
教師なしのテキストスタイル転送タスクは、メインのコンテンツを保持しながらテキストをターゲットのスタイルに書き換えることを目的としている。
従来の方法では、固定サイズのベクトルを使ってテキストスタイルを規制するが、個々のトークンのスタイル強度を正確に伝達することは困難である。
提案手法は,テキスト中の各トークンに個々のスタイルベクトルを割り当てることでこの問題に対処する。
論文 参考訳(メタデータ) (2023-06-12T13:12:29Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - StylePTB: A Compositional Benchmark for Fine-grained Controllable Text
Style Transfer [90.6768813620898]
スタイル転送は、ソース文定数からコアの意味を維持しながら、ターゲットのスタイル変更を伴うテキストを制御的に生成することを目的としています。
テキストの原子語彙,構文,セマンティック,セマンティックトランスファーにまたがる21のきめ細かなスタイリスティックな文を含む大規模ベンチマークであるStylePTBを導入する。
StylePTBの既存のメソッドは、細かい変更をモデル化するのに苦労し、複数のスタイルを構成するのにさらに困難です。
論文 参考訳(メタデータ) (2021-04-12T04:25:09Z) - Parameter-Free Style Projection for Arbitrary Style Transfer [64.06126075460722]
本稿では,パラメータフリー,高速,効果的なコンテンツスタイル変換のための特徴レベル変換手法であるStyle Projectionを提案する。
本稿では、任意の画像スタイルの転送にスタイル投影を利用するリアルタイムフィードフォワードモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T13:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。