Fugu-MT 論文翻訳(概要): VISTA: Triplet-Supervised Video Style Transfer with Diffusion Transformers

論文の概要: VISTA: Triplet-Supervised Video Style Transfer with Diffusion Transformers

arxiv url: http://arxiv.org/abs/2605.17312v1
Date: Sun, 17 May 2026 08:03:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:47.896803
Title: VISTA: Triplet-Supervised Video Style Transfer with Diffusion Transformers
Title（参考訳）: VISTA: 拡散変換器を用いたトリプルトスーパービジョンビデオスタイル転送
Authors: Yiren Song, Wangzi Yao, Haofan Wang, Mike Zheng Shou,
Abstract要約: VISTA-1000は1000のスタイルと、スタイル参照、クリーンビデオ、スタイリングビデオのモーションアラインなトリプレットを備えたデータセットである。本稿では,高機能なスタイル抽出のための軽量なスタイルアダプタを用いた拡散変換器を用いたインコンテクスト型動画転送フレームワークを提案する。
参考スコア（独自算出の注目度）: 55.10832054417015
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Video style transfer aims to render videos in a target artistic style while preserving content, structure, and motion. While image stylization has advanced rapidly, video stylization remains challenging due to temporal inconsistency. Most existing methods stylize frames or keyframes and enforce consistency via heuristic temporal propagation, which is brittle under occlusions, disocclusions, and long-term motion, leading to drift and flickering artifacts. We argue that a fundamental bottleneck lies in the lack of large-scale triplet data and a principled training paradigm that jointly models and disentangles style, content, and motion.To address this, we introduce VISTA-1000, a synthetic dataset with 1,000 styles and motion-aligned triplets of style reference, clean video, and stylized video, and propose a diffusion-transformer-based in-context video style transfer framework with a lightweight style adapter for robust style extraction. Extensive experiments demonstrate SOTA performance in style fidelity, temporal consistency, and content preservation.
Abstract（参考訳）: ビデオスタイルの転送は、コンテンツ、構造、動きを保存しながら、対象とする芸術的なスタイルでビデオをレンダリングすることを目的としている。画像のスタイリゼーションは急速に進んでいるが、時間的不整合のため、ビデオのスタイリゼーションは難しいままである。既存のほとんどの方法はフレームやキーフレームをスタイリングし、ヒューリスティックな時間的伝播を通じて一貫性を強制する。本稿では, 大規模トリプルトデータの欠如と, スタイル, 内容, 動作を連立的にモデル化し, 歪曲する基本的訓練パラダイムについて論じる。これに対処するために, スタイル参照, クリーンビデオ, スタイル化ビデオの1000種類のスタイルと動きを整列した合成データセットであるVISTA-1000を導入し, より堅牢なスタイル抽出のための軽量なスタイルアダプタを備えた拡散変換型ビデオスタイル転送フレームワークを提案する。広汎な実験は、スタイルの忠実度、時間的一貫性、コンテンツ保存におけるSOTA性能を示す。

関連論文リスト

TeleStyle: Content-Preserving Style Transfer in Images and Videos [52.76027947278353]
画像とビデオの両方をスタイリングするための軽量モデルであるTeleStyleを提示する。異なるスタイルの高品質なデータセットをキュレートし、数千の多様性のあるイン・ザ・ワイルドなスタイルのカテゴリを使用してトリプレットを合成した。 TeleStyleは、スタイルの類似性、コンテントの一貫性、美的品質という、3つの中核評価指標で最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-01-28T02:16:03Z)
PickStyle: Video-to-Video Style Transfer with Context-Style Adapters [1.9039773121452204]
PickStyleはビデオからビデオへの転送フレームワークで、事前訓練されたビデオ拡散バックボーンをスタイルアダプタで強化する。静止画像とダイナミックビデオのギャップを埋めるために,ペア画像から合成訓練クリップを構築する。 CS-CFGは、スタイルが効果的に転送される間、コンテキストが生成されたビデオに保存されることを保証する。
論文参考訳（メタデータ） (2025-10-08T21:02:55Z)
FreeViS: Training-free Video Stylization with Inconsistent References [57.411689597435334]
FreeViSはトレーニング不要のビデオスタイリングフレームワークで、リッチなスタイルの詳細と強力な時間的コヒーレンスを備えたスタイリングされたビデオを生成する。提案手法は,事前訓練された画像対ビデオ(I2V)モデルに複数のスタイリングされた参照を統合することで,先行研究で観測された伝搬誤差を効果的に軽減する。
論文参考訳（メタデータ） (2025-10-02T05:27:06Z)
Inversion-Free Video Style Transfer with Trajectory Reset Attention Control and Content-Style Bridging [5.501345898413532]
我々は,高品質なスタイル転送を可能にする新しい手法であるTRAC(Trajectory Reset Attention Control)を導入する。 TRACは、遅延軌跡をリセットし、注意制御を強制することにより、コンテントの一貫性を高める。画像とビデオの両方の転送に対して,安定的でフレキシブルで効率的なソリューションを提供する,チューニング不要なフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-10T14:18:43Z)
StyleMaster: Stylize Your Video with Artistic Generation and Translation [43.808656030545556]
スタイルコントロールはビデオ生成モデルで人気がある。現在の方法は、しばしば所定のスタイルから遠く離れたビデオを生成し、コンテンツのリークを引き起こし、1つのビデオを所望のスタイルに転送するのに苦労する。当社のアプローチであるStyleMasterは,スタイルの類似性と時間的コヒーレンスの両方において,大幅な改善を実現しています。
論文参考訳（メタデータ） (2024-12-10T18:44:08Z)
UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文参考訳（メタデータ） (2024-10-26T05:28:02Z)
Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文参考訳（メタデータ） (2023-05-09T14:03:27Z)
Unpaired Motion Style Transfer from Video to Animation [74.15550388701833]
1つのアニメーションクリップからもう1つのアニメーションクリップへモーションスタイルを転送する一方で、後者のモーションコンテンツを保存することは、キャラクターアニメーションにおいて長年の課題であった。本稿では,スタイルラベル付き動きの集合から学習する動きスタイル伝達のための新しいデータ駆動フレームワークを提案する。本フレームワークでは,映像から直接動作スタイルを抽出し,3次元再構成をバイパスし,これらを3次元入力動作に適用することができる。
論文参考訳（メタデータ） (2020-05-12T13:21:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。