論文の概要: DiT as Real-Time Rerenderer: Streaming Video Stylization with Autoregressive Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2604.13509v1
- Date: Wed, 15 Apr 2026 05:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.402137
- Title: DiT as Real-Time Rerenderer: Streaming Video Stylization with Autoregressive Diffusion Transformer
- Title(参考訳): リアルタイムレンダラーとしてのDiT - 自己回帰拡散変換器を用いたストリームビデオスティル化
- Authors: Hengye Lyu, Zisu Li, Yue Hong, Yueting Weng, Jiaxin Shi, Hanwang Zhang, Chen Liang,
- Abstract要約: 本稿では,Diffusion Transformer をベースとした蒸気式ビデオスタイリングフレームワーク RTR-DiT (DiT as Real-Time Rerenderer) を提案する。
まず、ビデオスタイリゼーションデータセット上で双方向の教師モデルを微調整し、テキスト誘導と参照誘導の両方の動画スタイリゼーションタスクをサポートする。
次に, 自己強制・分散マッチング蒸留による後処理により, 数段階の自己回帰モデルに蒸留する。
実験の結果,RTR-DiTはテキスト誘導と参照誘導の両方で既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 53.36692512160234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video generation models has significantly accelerated video generation and related downstream tasks. Among these, video stylization holds important research value in areas such as immersive applications and artistic creation, attracting widespread attention. However, existing diffusion-based video stylization methods struggle to maintain stability and consistency when processing long videos, and their high computational cost and multi-step denoising make them difficult to apply in practical scenarios. In this work, we propose RTR-DiT (DiT as Real-Time Rerenderer), a steaming video stylization framework built upon Diffusion Transformer. We first fine-tune a bidirectional teacher model on a curated video stylization dataset, supporting both text-guided and reference-guided video stylization tasks, and subsequently distill it into a few-step autoregressive model via post-training with Self Forcing and Distribution Matching Distillation. Furthermore, we propose a reference-preserving KV cache update strategy that not only enables stable and consistent processing of long videos, but also supports real-time switching between text prompts and reference images. Experimental results show that RTR-DiT outperforms existing methods in both text-guided and reference-guided video stylization tasks, in terms of quantitative metrics and visual quality, and demonstrates excellent performance in real-time long video stylization and interactive style-switching applications.
- Abstract(参考訳): 映像生成モデルの最近の進歩は、映像生成と関連する下流タスクを著しく加速させてきた。
これらのうち、ビデオスタイリングは没入的応用や芸術的創造といった分野において重要な研究価値を保ち、広く注目を集めている。
しかし, 従来の拡散型ビデオスタイリング手法では, 長ビデオ処理時の安定性と一貫性の維持が困難であり, 計算コストとマルチステップのデノナイズにより, 現実的なシナリオでは適用が困難である。
本研究では,Diffusion Transformer 上に構築した蒸気式ビデオスタイリングフレームワーク RTR-DiT (DiT as Real-Time Rerenderer) を提案する。
まず、ビデオスタイリゼーションデータセット上で双方向の教師モデルを微調整し、テキスト誘導と参照誘導の両方の動画スタイリゼーションタスクをサポートし、その後、セルフフォーシングと分散マッチング蒸留による後学習により数ステップの自己回帰モデルに蒸留する。
さらに,長いビデオの安定した一貫した処理を可能にするだけでなく,テキストプロンプトと参照画像のリアルタイム切替もサポートする参照保存型KVキャッシュ更新戦略を提案する。
実験結果から,RTR-DiTは,テキスト誘導型および参照誘導型両方のビデオスタイリゼーションタスクにおいて,定量的な計測値と視覚的品質の観点から既存手法よりも優れており,リアルタイムビデオスタイリゼーションやインタラクティブなスタイルスイッチングアプリケーションにおいて優れた性能を示すことが示された。
関連論文リスト
- VDOT: Efficient Unified Video Creation via Optimal Transport Distillation [70.02065520468726]
本稿では,VDOT という名前の効率的な統合ビデオ生成モデルを提案する。
我々は,実測値分布と偽測値分布の差分を最適化するために,新しい計算最適輸送(OT)技術を用いる。
統合ビデオ生成モデルの訓練を支援するため,ビデオデータアノテーションとフィルタリングのための完全自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-07T11:31:00Z) - Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。
我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文 参考訳(メタデータ) (2025-02-28T18:56:35Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。