論文の概要: FreeViS: Training-free Video Stylization with Inconsistent References
- arxiv url: http://arxiv.org/abs/2510.01686v1
- Date: Thu, 02 Oct 2025 05:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.010192
- Title: FreeViS: Training-free Video Stylization with Inconsistent References
- Title(参考訳): FreeViS: 一貫性のない参照によるトレーニング不要のビデオスティル化
- Authors: Jiacong Xu, Yiqun Mei, Ke Zhang, Vishal M. Patel,
- Abstract要約: FreeViSはトレーニング不要のビデオスタイリングフレームワークで、リッチなスタイルの詳細と強力な時間的コヒーレンスを備えたスタイリングされたビデオを生成する。
提案手法は,事前訓練された画像対ビデオ(I2V)モデルに複数のスタイリングされた参照を統合することで,先行研究で観測された伝搬誤差を効果的に軽減する。
- 参考スコア(独自算出の注目度): 57.411689597435334
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Video stylization plays a key role in content creation, but it remains a challenging problem. Na\"ively applying image stylization frame-by-frame hurts temporal consistency and reduces style richness. Alternatively, training a dedicated video stylization model typically requires paired video data and is computationally expensive. In this paper, we propose FreeViS, a training-free video stylization framework that generates stylized videos with rich style details and strong temporal coherence. Our method integrates multiple stylized references to a pretrained image-to-video (I2V) model, effectively mitigating the propagation errors observed in prior works, without introducing flickers and stutters. In addition, it leverages high-frequency compensation to constrain the content layout and motion, together with flow-based motion cues to preserve style textures in low-saliency regions. Through extensive evaluations, FreeViS delivers higher stylization fidelity and superior temporal consistency, outperforming recent baselines and achieving strong human preference. Our training-free pipeline offers a practical and economic solution for high-quality, temporally coherent video stylization. The code and videos can be accessed via https://xujiacong.github.io/FreeViS/
- Abstract(参考訳): ビデオのスタイリングはコンテンツ制作において重要な役割を果たすが、それでも難しい問題だ。
画像スタイリゼーションをフレーム単位で"強制的に適用"すると、時間的一貫性が損なわれ、スタイルの豊かさが低下する。
あるいは、専用ビデオスタイリングモデルのトレーニングは通常、ペア化されたビデオデータを必要とし、計算コストがかかる。
本稿では、リッチなスタイルの詳細と強い時間的コヒーレンスを備えたスタイリングビデオを生成する、トレーニング不要なビデオスタイリングフレームワークFreeViSを提案する。
提案手法は,予め訓練された画像対ビデオ(I2V)モデルに複数のスタイリングされた参照を統合することで,フリックやスタッタを導入することなく,先行作業で観測された伝搬誤差を効果的に軽減する。
さらに、高周波補償を利用して、コンテンツレイアウトと動きを制限し、フローベースのモーションキューを併用して、低空域におけるスタイルテクスチャを保存する。
広範な評価を通じて、FreeViSはより高度なスタイリゼーションの忠実さと優れた時間的一貫性を提供し、最近のベースラインを上回り、強い人間の嗜好を達成する。
私たちのトレーニング不要パイプラインは、高品質で時間的に一貫性のあるビデオスタイリングのための実用的で経済的なソリューションを提供します。
コードとビデオはhttps://xujiacong.github.io/FreeViS/でアクセスできる。
関連論文リスト
- SOYO: A Tuning-Free Approach for Video Style Morphing via Style-Adaptive Interpolation in Diffusion Models [54.641809532055916]
本稿では,ビデオスタイルモーフィングのための新しい拡散型フレームワークであるSOYOを紹介する。
本手法では, 微調整を伴わずに事前訓練したテキスト・画像拡散モデルを用い, 注意注入とAdaINを併用して構造的整合性を維持する。
ビデオフレーム間の調和を図るために,2種類の画像間の適応型サンプリングスケジューラを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:27:01Z) - StyleMaster: Stylize Your Video with Artistic Generation and Translation [43.808656030545556]
スタイルコントロールはビデオ生成モデルで人気がある。
現在の方法は、しばしば所定のスタイルから遠く離れたビデオを生成し、コンテンツのリークを引き起こし、1つのビデオを所望のスタイルに転送するのに苦労する。
当社のアプローチであるStyleMasterは,スタイルの類似性と時間的コヒーレンスの両方において,大幅な改善を実現しています。
論文 参考訳(メタデータ) (2024-12-10T18:44:08Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - WAIT: Feature Warping for Animation to Illustration video Translation using GANs [11.968412857420192]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。