論文の概要: PickStyle: Video-to-Video Style Transfer with Context-Style Adapters
- arxiv url: http://arxiv.org/abs/2510.07546v1
- Date: Wed, 08 Oct 2025 21:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.732952
- Title: PickStyle: Video-to-Video Style Transfer with Context-Style Adapters
- Title(参考訳): PickStyle:Context-Style Adaptersを使ったビデオからビデオへの変換
- Authors: Soroush Mehraban, Vida Adeli, Jacob Rommann, Babak Taati, Kyryl Truskovskyi,
- Abstract要約: PickStyleはビデオからビデオへの転送フレームワークで、事前訓練されたビデオ拡散バックボーンをスタイルアダプタで強化する。
静止画像とダイナミックビデオのギャップを埋めるために,ペア画像から合成訓練クリップを構築する。
CS-CFGは、スタイルが効果的に転送される間、コンテキストが生成されたビデオに保存されることを保証する。
- 参考スコア(独自算出の注目度): 1.9039773121452204
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We address the task of video style transfer with diffusion models, where the goal is to preserve the context of an input video while rendering it in a target style specified by a text prompt. A major challenge is the lack of paired video data for supervision. We propose PickStyle, a video-to-video style transfer framework that augments pretrained video diffusion backbones with style adapters and benefits from paired still image data with source-style correspondences for training. PickStyle inserts low-rank adapters into the self-attention layers of conditioning modules, enabling efficient specialization for motion-style transfer while maintaining strong alignment between video content and style. To bridge the gap between static image supervision and dynamic video, we construct synthetic training clips from paired images by applying shared augmentations that simulate camera motion, ensuring temporal priors are preserved. In addition, we introduce Context-Style Classifier-Free Guidance (CS-CFG), a novel factorization of classifier-free guidance into independent text (style) and video (context) directions. CS-CFG ensures that context is preserved in generated video while the style is effectively transferred. Experiments across benchmarks show that our approach achieves temporally coherent, style-faithful, and content-preserving video translations, outperforming existing baselines both qualitatively and quantitatively.
- Abstract(参考訳): そこでは,テキストプロンプトによって指定されたターゲットスタイルでレンダリングしながら,入力ビデオのコンテキストを保存することを目標としている。
大きな課題は、監視のためのペアのビデオデータがないことだ。
そこで我々は,映像拡散バックボーンとスタイルアダプタの併用によるビデオ拡散バックボーンの強化と,トレーニング用ソーススタイル対応による静止画像データのペア化によるメリットを生かした,ビデオ間動画転送フレームワークPickStyleを提案する。
PickStyleは、コンディショニングモジュールの自己アテンション層に低ランクアダプタを挿入し、動画コンテンツとスタイルの整合性を維持しながら、モーションスタイル転送の効率的な特殊化を可能にする。
静止画像監視とダイナミックビデオのギャップを埋めるために、カメラの動きをシミュレートする共有拡張を適用して、時間的事前保存を確実にすることで、ペア画像から合成訓練クリップを構築する。
さらに, CS-CFG (Context-Style Classifier-Free Guidance) を導入した。
CS-CFGは、スタイルが効果的に転送される間、コンテキストが生成されたビデオに保存されることを保証する。
評価実験の結果,提案手法は時間的コヒーレント,スタイル忠実,コンテンツ保存ビデオ翻訳を実現し,質的,定量的に既存のベースラインを上回っていることがわかった。
関連論文リスト
- FreeViS: Training-free Video Stylization with Inconsistent References [57.411689597435334]
FreeViSはトレーニング不要のビデオスタイリングフレームワークで、リッチなスタイルの詳細と強力な時間的コヒーレンスを備えたスタイリングされたビデオを生成する。
提案手法は,事前訓練された画像対ビデオ(I2V)モデルに複数のスタイリングされた参照を統合することで,先行研究で観測された伝搬誤差を効果的に軽減する。
論文 参考訳(メタデータ) (2025-10-02T05:27:06Z) - SOYO: A Tuning-Free Approach for Video Style Morphing via Style-Adaptive Interpolation in Diffusion Models [54.641809532055916]
本稿では,ビデオスタイルモーフィングのための新しい拡散型フレームワークであるSOYOを紹介する。
本手法では, 微調整を伴わずに事前訓練したテキスト・画像拡散モデルを用い, 注意注入とAdaINを併用して構造的整合性を維持する。
ビデオフレーム間の調和を図るために,2種類の画像間の適応型サンプリングスケジューラを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:27:01Z) - StyleMaster: Stylize Your Video with Artistic Generation and Translation [43.808656030545556]
スタイルコントロールはビデオ生成モデルで人気がある。
現在の方法は、しばしば所定のスタイルから遠く離れたビデオを生成し、コンテンツのリークを引き起こし、1つのビデオを所望のスタイルに転送するのに苦労する。
当社のアプローチであるStyleMasterは,スタイルの類似性と時間的コヒーレンスの両方において,大幅な改善を実現しています。
論文 参考訳(メタデータ) (2024-12-10T18:44:08Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - WAIT: Feature Warping for Animation to Illustration video Translation using GANs [11.968412857420192]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z) - Arbitrary Video Style Transfer via Multi-Channel Correlation [84.75377967652753]
本稿では,マルチチャネル補正ネットワーク(MCCNet)を提案する。
MCCNetは、スタイルとコンテンツドメインの機能空間で直接動作する。
MCCが生成した出力は所望のスタイルパターンを含む特徴であり、鮮やかなスタイルのテクスチャでさらに画像にデコードできる。
論文 参考訳(メタデータ) (2020-09-17T01:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。