論文の概要: StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style
Adapter
- arxiv url: http://arxiv.org/abs/2312.00330v1
- Date: Fri, 1 Dec 2023 03:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:53:51.353594
- Title: StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style
Adapter
- Title(参考訳): StyleCrafter:スタイルアダプタによるスタイリズされたテキスト・ビデオ生成の強化
- Authors: Gongye Liu, Menghan Xia, Yong Zhang, Haoxin Chen, Jinbo Xing, Xintao
Wang, Yujiu Yang, Ying Shan
- Abstract要約: StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
- 参考スコア(独自算出の注目度): 74.68550659331405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video (T2V) models have shown remarkable capabilities in generating
diverse videos. However, they struggle to produce user-desired stylized videos
due to (i) text's inherent clumsiness in expressing specific styles and (ii)
the generally degraded style fidelity. To address these challenges, we
introduce StyleCrafter, a generic method that enhances pre-trained T2V models
with a style control adapter, enabling video generation in any style by
providing a reference image. Considering the scarcity of stylized video
datasets, we propose to first train a style control adapter using style-rich
image datasets, then transfer the learned stylization ability to video
generation through a tailor-made finetuning paradigm. To promote content-style
disentanglement, we remove style descriptions from the text prompt and extract
style information solely from the reference image using a decoupling learning
strategy. Additionally, we design a scale-adaptive fusion module to balance the
influences of text-based content features and image-based style features, which
helps generalization across various text and style combinations. StyleCrafter
efficiently generates high-quality stylized videos that align with the content
of the texts and resemble the style of the reference images. Experiments
demonstrate that our approach is more flexible and efficient than existing
competitors.
- Abstract(参考訳): text-to-video(t2v)モデルは、多様なビデオを生成する素晴らしい能力を示している。
しかし、ユーザー好みのスタイリッシュビデオを作るのに苦労している。
(i)特定の様式や表現における本質的な不器用さ
(ii)概ね劣化した様式の忠実さ。
これらの課題に対処するために,スタイル制御アダプタを用いて事前学習したt2vモデルを拡張する汎用的手法であるstylecrafterを導入する。
スタイリングされたビデオデータセットの不足を考慮すると、まずスタイルリッチな画像データセットを用いてスタイル制御アダプタを訓練し、学習したスタイリング能力をテーラーメイドのファインタニングパラダイムを通じてビデオ生成に転送する。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,デカップリング学習戦略を用いて参照画像のみからスタイル情報を抽出する。
さらに,テキストベースのコンテンツ機能と画像ベースのスタイル機能の影響をバランスさせるために,スケール適応型融合モジュールを設計した。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
実験によると、我々のアプローチは既存の競合他社よりも柔軟で効率的である。
関連論文リスト
- Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - ArtAdapter: Text-to-Image Style Transfer using Multi-Level Style Encoder
and Explicit Adaptation [0.9975341265604578]
ArtAdapterはテキスト・ツー・イメージ(T2I)スタイルの転送フレームワークで、従来の色、ブラシストローク、オブジェクト形状の制限を超越している。
提案した明示的な適応機構とマルチレベルスタイルエンコーダの統合により、ArtAdapteはスタイル転送において前例のない忠実性を実現することができる。
論文 参考訳(メタデータ) (2023-12-04T18:39:00Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image
Generation [97.24936247688824]
本稿では,テキストプロンプトとスタイル参照画像を入力として取り込む,スタイル付画像生成のためのLoRAフリーな手法を提案する。
StyleAdapterは、プロンプトの内容にマッチする高品質な画像を生成し、単一のパスで参照のスタイルを採用することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image
Generation [13.894251782142584]
GLIDE や DALLE-2 のような拡散ベースのテキスト・画像生成モデルは近年広く成功している。
本稿では,参照画像でガイドされた任意のスタイルを用いた画像生成を支援する新しいスタイルガイダンス手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T20:52:57Z) - StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Translation [10.357474047610172]
本稿では,ユーザが所望の描画スタイルを指定可能なテキスト記述のためのスタイルドローイング生成手法を提案する。
創作過程において、スタイルと内容が分離できないという芸術理論に触発されて、我々はStyleCLIPDrawとして知られる、結合したアプローチを提案する。
人間の評価に基づいて、StyleCLIPDrawによって生成される画像のスタイルは、シーケンシャルアプローチによって強く好まれる。
論文 参考訳(メタデータ) (2022-02-24T21:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。