論文の概要: DreamStyle: A Unified Framework for Video Stylization
- arxiv url: http://arxiv.org/abs/2601.02785v1
- Date: Tue, 06 Jan 2026 07:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.84964
- Title: DreamStyle: A Unified Framework for Video Stylization
- Title(参考訳): DreamStyle:ビデオスティル化のための統一フレームワーク
- Authors: Mengtian Li, Jinshu Chen, Songtao Zhao, Wanquan Feng, Pengqi Tu, Qian He,
- Abstract要約: ビデオスタイリングのための統合フレームワークDreamStyleを紹介する。
1)テキスト誘導、(2)スタイル誘導、(3)ファーストフレーム誘導ビデオスタイリングをサポートする。
質的および定量的な評価は、DreamStyleが3つのビデオスタイリングタスク全てに適していることを示している。
- 参考スコア(独自算出の注目度): 18.820518165759403
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video stylization, an important downstream task of video generation models, has not yet been thoroughly explored. Its input style conditions typically include text, style image, and stylized first frame. Each condition has a characteristic advantage: text is more flexible, style image provides a more accurate visual anchor, and stylized first frame makes long-video stylization feasible. However, existing methods are largely confined to a single type of style condition, which limits their scope of application. Additionally, their lack of high-quality datasets leads to style inconsistency and temporal flicker. To address these limitations, we introduce DreamStyle, a unified framework for video stylization, supporting (1) text-guided, (2) style-image-guided, and (3) first-frame-guided video stylization, accompanied by a well-designed data curation pipeline to acquire high-quality paired video data. DreamStyle is built on a vanilla Image-to-Video (I2V) model and trained using a Low-Rank Adaptation (LoRA) with token-specific up matrices that reduces the confusion among different condition tokens. Both qualitative and quantitative evaluations demonstrate that DreamStyle is competent in all three video stylization tasks, and outperforms the competitors in style consistency and video quality.
- Abstract(参考訳): ビデオ生成モデルの重要な下流タスクであるビデオスタイリングは、まだ徹底的に検討されていない。
入力スタイルの条件は通常、テキスト、スタイルイメージ、スタイル化されたファーストフレームを含む。
テキストはより柔軟で、スタイルのイメージはより正確なビジュアルアンカーを提供し、スタイリングされた第1フレームは長ビデオのスタイリングを可能にする。
しかし、既存のメソッドは、ほとんどの場合、アプリケーションの範囲を制限する単一のスタイル条件に制限されている。
さらに、高品質なデータセットの欠如は、スタイルの不整合と一時的なフリッカにつながる。
これらの制約に対処するため,(1)テキスト誘導,(2)スタイル誘導,(3)ファーストフレーム誘導によるビデオスタイリングをサポートし,良質なペアビデオデータを取得するためのデータキュレーションパイプラインを設計したDreamStyleを紹介した。
DreamStyleは、Vanilla Image-to-Video(I2V)モデルに基づいて構築されており、異なる条件トークン間の混乱を低減するために、トークン固有のアップマトリックスを備えたローランド適応(LoRA)を使用してトレーニングされている。
質的および定量的評価は、DreamStyleが3つのビデオスタイリングタスクすべてに適しており、コンペティターのスタイル一貫性とビデオ品質を上回っていることを示している。
関連論文リスト
- FreeViS: Training-free Video Stylization with Inconsistent References [57.411689597435334]
FreeViSはトレーニング不要のビデオスタイリングフレームワークで、リッチなスタイルの詳細と強力な時間的コヒーレンスを備えたスタイリングされたビデオを生成する。
提案手法は,事前訓練された画像対ビデオ(I2V)モデルに複数のスタイリングされた参照を統合することで,先行研究で観測された伝搬誤差を効果的に軽減する。
論文 参考訳(メタデータ) (2025-10-02T05:27:06Z) - SOYO: A Tuning-Free Approach for Video Style Morphing via Style-Adaptive Interpolation in Diffusion Models [54.641809532055916]
本稿では,ビデオスタイルモーフィングのための新しい拡散型フレームワークであるSOYOを紹介する。
本手法では, 微調整を伴わずに事前訓練したテキスト・画像拡散モデルを用い, 注意注入とAdaINを併用して構造的整合性を維持する。
ビデオフレーム間の調和を図るために,2種類の画像間の適応型サンプリングスケジューラを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:27:01Z) - StyleMaster: Stylize Your Video with Artistic Generation and Translation [43.808656030545556]
スタイルコントロールはビデオ生成モデルで人気がある。
現在の方法は、しばしば所定のスタイルから遠く離れたビデオを生成し、コンテンツのリークを引き起こし、1つのビデオを所望のスタイルに転送するのに苦労する。
当社のアプローチであるStyleMasterは,スタイルの類似性と時間的コヒーレンスの両方において,大幅な改善を実現しています。
論文 参考訳(メタデータ) (2024-12-10T18:44:08Z) - FreeStyle: Free Lunch for Text-guided Style Transfer using Diffusion Models [11.401299303276016]
我々は,事前学習した大拡散モデルに基づいて構築された,革新的なスタイル転送手法であるFreeStyleを紹介する。
本手法では,所望のスタイルのテキスト記述のみでスタイル転送が可能であり,スタイル画像の必要がなくなる。
実験の結果,様々なコンテンツ画像とスタイルのテキストプロンプトにまたがって,提案手法の高品質な合成と忠実さを実証した。
論文 参考訳(メタデータ) (2024-01-28T12:00:31Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。