論文の概要: SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
- arxiv url: http://arxiv.org/abs/2501.01320v1
- Date: Thu, 02 Jan 2025 16:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 16:54:32.281003
- Title: SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
- Title(参考訳): SeedVR: 拡散変換器の無限性を探るジェネリックビデオ再生
- Authors: Jianyi Wang, Zhijie Lin, Meng Wei, Yang Zhao, Ceyuan Yang, Chen Change Loy, Lu Jiang,
- Abstract要約: SeedVRは、任意の長さと解像度で現実世界のビデオ再生を処理するために設計された拡散トランスフォーマーである。
合成ベンチマークと実世界のベンチマーク、AI生成ビデオで高い競争力を発揮する。
- 参考スコア(独自算出の注目度): 76.7560534101187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video restoration poses non-trivial challenges in maintaining fidelity while recovering temporally consistent details from unknown degradations in the wild. Despite recent advances in diffusion-based restoration, these methods often face limitations in generation capability and sampling efficiency. In this work, we present SeedVR, a diffusion transformer designed to handle real-world video restoration with arbitrary length and resolution. The core design of SeedVR lies in the shifted window attention that facilitates effective restoration on long video sequences. SeedVR further supports variable-sized windows near the boundary of both spatial and temporal dimensions, overcoming the resolution constraints of traditional window attention. Equipped with contemporary practices, including causal video autoencoder, mixed image and video training, and progressive training, SeedVR achieves highly-competitive performance on both synthetic and real-world benchmarks, as well as AI-generated videos. Extensive experiments demonstrate SeedVR's superiority over existing methods for generic video restoration.
- Abstract(参考訳): ビデオの復元は、野生の未知の劣化から時間的に一貫した詳細を回復しながら、忠実さを維持することの難しさを浮き彫りにする。
近年の拡散に基づく復元の進歩にもかかわらず、これらの手法は生成能力とサンプリング効率の限界に直面していることが多い。
本研究では,任意の長さと解像度で実世界の映像復元を行うための拡散トランスフォーマであるSeedVRを提案する。
SeedVRの中核となる設計は、長いビデオシーケンスの効率的な復元を容易にする、シフトしたウィンドウアテンションにある。
SeedVRはさらに、空間次元と時間次元の境界に近い可変サイズのウィンドウをサポートし、従来のウィンドウアテンションの解像度制約を克服している。
因果的ビデオオートエンコーダ、混合画像およびビデオトレーニング、プログレッシブトレーニングなど、現代的なプラクティスを備えたSeedVRは、合成および実世界のベンチマークとAI生成ビデオの両方で高い競争力を発揮する。
大規模な実験は、既存のジェネリックビデオ復元方法よりもSeedVRの方が優れていることを示している。
関連論文リスト
- DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models [17.29580459404157]
本稿では,斬新で高効率なビデオVAEフレームワークLeanVAEを提案する。
我々のモデルは最大50倍のFLOPと44倍高速な推論速度を提供する。
ビデオ再生・生成におけるLeanVAEの優位性を検証した。
論文 参考訳(メタデータ) (2025-03-18T14:58:59Z) - Spatio-Temporal Distortion Aware Omnidirectional Video Super-Resolution [25.615935776826596]
分解能を高めるためにビデオ超解像(SR)が提案されているが、実際のODV空間射影歪みと時間的フレッカリングは、既存の手法を直接的に適用するには十分ではない。
本研究では, ODV-SR の再現性を向上させるため, ODV 特性を指向した時空間歪み認識ネットワーク (STDAN) を提案する。
論文 参考訳(メタデータ) (2024-10-15T11:17:19Z) - DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models [9.145545884814327]
本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。
本手法は,ゼロショット映像復元において最高の性能を発揮することを示す。
本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行うことなく,映像強調作業のための汎用的で強力なツールを提供する。
論文 参考訳(メタデータ) (2024-07-01T17:59:12Z) - ConVRT: Consistent Video Restoration Through Turbulence with Test-time
Optimization of Neural Video Representations [13.38405890753946]
乱流を通した連続ビデオ再生(ConVRT)を自己管理する手法を提案する。
ConVRTは、回復時の時間的一貫性を高めるように設計されたニューラルビデオ表現を特徴とするテスト時間最適化手法である。
ConVRTの重要な革新は、セマンティック指向の監視のための事前訓練された視覚言語モデル(CLIP)の統合である。
論文 参考訳(メタデータ) (2023-12-07T20:19:48Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Evaluating Foveated Video Quality Using Entropic Differencing [1.5877673959068452]
本稿では,帯域通過応答の自然なシーン統計を用いた画像品質評価アルゴリズムを提案する。
提案アルゴリズムは,FEDが人的判断に対して行う予測の相関性を測定して評価する。
提案アルゴリズムの性能は,既存の全参照アルゴリズムと比較して最先端である。
論文 参考訳(メタデータ) (2021-06-12T16:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。