論文の概要: Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration
- arxiv url: http://arxiv.org/abs/2508.14483v1
- Date: Wed, 20 Aug 2025 07:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.371867
- Title: Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration
- Title(参考訳): Vivid-VR:フォトリアリスティックビデオ再生のためのテキスト・ビデオ拡散変換器のコンセプト
- Authors: Haoran Bai, Xiaoxu Chen, Canqian Yang, Zongyao He, Sibin Deng, Ying Chen,
- Abstract要約: 先進的なT2Vファンデーションモデルに基づいて構築されたDiTベースの生成ビデオ復元手法であるVivid-VRを提案する。
Vivid-VRは, 実世界のベンチマークと実世界のベンチマークの両方において, 既存のアプローチに対して良好に動作することを示す。
- 参考スコア(独自算出の注目度): 10.380762592437486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Vivid-VR, a DiT-based generative video restoration method built upon an advanced T2V foundation model, where ControlNet is leveraged to control the generation process, ensuring content consistency. However, conventional fine-tuning of such controllable pipelines frequently suffers from distribution drift due to limitations in imperfect multimodal alignment, resulting in compromised texture realism and temporal coherence. To tackle this challenge, we propose a concept distillation training strategy that utilizes the pretrained T2V model to synthesize training samples with embedded textual concepts, thereby distilling its conceptual understanding to preserve texture and temporal quality. To enhance generation controllability, we redesign the control architecture with two key components: 1) a control feature projector that filters degradation artifacts from input video latents to minimize their propagation through the generation pipeline, and 2) a new ControlNet connector employing a dual-branch design. This connector synergistically combines MLP-based feature mapping with cross-attention mechanism for dynamic control feature retrieval, enabling both content preservation and adaptive control signal modulation. Extensive experiments show that Vivid-VR performs favorably against existing approaches on both synthetic and real-world benchmarks, as well as AIGC videos, achieving impressive texture realism, visual vividness, and temporal consistency. The codes and checkpoints are publicly available at https://github.com/csbhr/Vivid-VR.
- Abstract(参考訳): そこで我々は,制御ネットを利用して生成過程を制御し,コンテントの整合性を確保する,高度なT2Vファンデーションモデルに基づくDITベースの生成ビデオ復元手法であるVivid-VRを提案する。
しかし、このような制御可能なパイプラインの従来の微調整は、不完全なマルチモーダルアライメントの制限により、しばしば分布のドリフトに悩まされ、テクスチャリアリズムと時間的コヒーレンスを損なう。
この課題に対処するために, 予め訓練したT2Vモデルを用いて, テクスチャと時間的品質を保存するために, テクスチャを組み込んだトレーニングサンプルを合成し, その概念的理解を蒸留し, テクスチャと時間的品質を保存する概念蒸留訓練戦略を提案する。
生成制御性を向上させるため、制御アーキテクチャを2つの重要なコンポーネントで再設計する。
1【再生パイプラインによる伝播を最小限に抑えるため、入力ビデオ潜水器の劣化物をフィルタリングする制御機能プロジェクタ】
2) デュアルブランチ設計を採用した新しいControlNetコネクタ。
このコネクタは、MLPベースの特徴マッピングと動的制御特徴検索のためのクロスアテンション機構を相乗的に組み合わせ、コンテンツ保存と適応制御信号変調の両方を可能にする。
大規模な実験により、Vivid-VRは、人工的および実世界のベンチマークとAIGCビデオの両方の既存のアプローチに対して好意的に機能し、印象的なテクスチャリアリズム、視覚的鮮明さ、時間的一貫性を達成している。
コードとチェックポイントはhttps://github.com/csbhr/Vivid-VR.comで公開されている。
関連論文リスト
- BridgeIV: Bridging Customized Image and Video Generation through Test-Time Autoregressive Identity Propagation [47.21414443162965]
テキスト・ツー・ビデオ(CT2V)生成のための自動回帰構造とテクスチャ・プロパゲーション・モジュール(STPM)を提案する。
STPMは、参照対象から重要な構造的およびテクスチャ的特徴を抽出し、それらを各ビデオフレームに自己回帰的に注入し、一貫性を高める。
また,テスト時間報酬最適化 (TTRO) 手法を導入し,細部まで詳細に解析する。
論文 参考訳(メタデータ) (2025-05-11T14:11:12Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [28.38307253613529]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z) - Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。