論文の概要: SOYO: A Tuning-Free Approach for Video Style Morphing via Style-Adaptive Interpolation in Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.06998v1
- Date: Mon, 10 Mar 2025 07:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:08.136892
- Title: SOYO: A Tuning-Free Approach for Video Style Morphing via Style-Adaptive Interpolation in Diffusion Models
- Title(参考訳): SOYO:拡散モデルにおけるスタイル適応補間によるビデオスタイルモーフィングのチューニング不要アプローチ
- Authors: Haoyu Zheng, Qifan Yu, Binghe Yu, Yang Dai, Wenqiao Zhang, Juncheng Li, Siliang Tang, Yueting Zhuang,
- Abstract要約: 本稿では,ビデオスタイルモーフィングのための新しい拡散型フレームワークであるSOYOを紹介する。
本手法では, 微調整を伴わずに事前訓練したテキスト・画像拡散モデルを用い, 注意注入とAdaINを併用して構造的整合性を維持する。
ビデオフレーム間の調和を図るために,2種類の画像間の適応型サンプリングスケジューラを提案する。
- 参考スコア(独自算出の注目度): 54.641809532055916
- License:
- Abstract: Diffusion models have achieved remarkable progress in image and video stylization. However, most existing methods focus on single-style transfer, while video stylization involving multiple styles necessitates seamless transitions between them. We refer to this smooth style transition between video frames as video style morphing. Current approaches often generate stylized video frames with discontinuous structures and abrupt style changes when handling such transitions. To address these limitations, we introduce SOYO, a novel diffusion-based framework for video style morphing. Our method employs a pre-trained text-to-image diffusion model without fine-tuning, combining attention injection and AdaIN to preserve structural consistency and enable smooth style transitions across video frames. Moreover, we notice that applying linear equidistant interpolation directly induces imbalanced style morphing. To harmonize across video frames, we propose a novel adaptive sampling scheduler operating between two style images. Extensive experiments demonstrate that SOYO outperforms existing methods in open-domain video style morphing, better preserving the structural coherence of video frames while achieving stable and smooth style transitions.
- Abstract(参考訳): 拡散モデルは画像やビデオのスタイリングにおいて顕著な進歩を遂げた。
しかし、既存のほとんどの手法はシングルスタイルの転送に重点を置いているが、複数のスタイルを含むビデオのスタイリングは、それらの間のシームレスな遷移を必要とする。
ビデオフレーム間のスムーズなスタイル遷移をビデオスタイルのモーフィングと呼ぶ。
現在のアプローチは、このような遷移を扱う際に、不連続な構造と急激なスタイルの変化を持つスタイリングされたビデオフレームを生成することが多い。
これらの制約に対処するために,ビデオスタイルのモーフィングのための新しい拡散型フレームワークであるSOYOを紹介する。
提案手法では,微調整を伴わずに事前学習したテキスト・画像拡散モデルを用いて,アテンションインジェクションとAdaINを組み合わせて構造的一貫性を保ち,ビデオフレーム間のスムーズなスタイル遷移を可能にする。
さらに、線形等距離補間を適用することで、不均衡なスタイルのモーフィングが直接発生することに気付く。
ビデオフレーム間の調和を図るために,2種類の画像間の適応型サンプリングスケジューラを提案する。
広汎な実験により、SOYOは、オープンドメインビデオスタイルのモーフィングにおいて既存の手法よりも優れ、安定したスムーズなスタイル遷移を達成しつつ、ビデオフレームの構造的コヒーレンスをよりよく保存することを示した。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z) - Interactive Video Stylization Using Few-Shot Patch-Based Training [23.801384381295698]
提案手法は,少数の選択者から他の配列へスタイルを伝達する学習的手法である。
結果として得られるスタイル化は意味論的に意味があり、つまり、動く物体の特定の部分がアーティストの意図に従ってスタイル化される。
ユーザが選択した外観をペイントし、そのスタイルを既存の記録シーケンスやライブビデオストリームに転送する、様々なインタラクティブなシナリオにおいて、その実用性を実証する。
論文 参考訳(メタデータ) (2020-04-29T21:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。