論文の概要: SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
- arxiv url: http://arxiv.org/abs/2501.01320v2
- Date: Sat, 04 Jan 2025 04:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 13:45:24.475662
- Title: SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
- Title(参考訳): SeedVR: 拡散変換器の無限性を探るジェネリックビデオ再生
- Authors: Jianyi Wang, Zhijie Lin, Meng Wei, Yang Zhao, Ceyuan Yang, Chen Change Loy, Lu Jiang,
- Abstract要約: SeedVRは、任意の長さと解像度で現実世界のビデオ再生を処理するために設計された拡散トランスフォーマーである。
合成ベンチマークと実世界のベンチマーク、AI生成ビデオで高い競争力を発揮する。
- 参考スコア(独自算出の注目度): 76.7560534101187
- License:
- Abstract: Video restoration poses non-trivial challenges in maintaining fidelity while recovering temporally consistent details from unknown degradations in the wild. Despite recent advances in diffusion-based restoration, these methods often face limitations in generation capability and sampling efficiency. In this work, we present SeedVR, a diffusion transformer designed to handle real-world video restoration with arbitrary length and resolution. The core design of SeedVR lies in the shifted window attention that facilitates effective restoration on long video sequences. SeedVR further supports variable-sized windows near the boundary of both spatial and temporal dimensions, overcoming the resolution constraints of traditional window attention. Equipped with contemporary practices, including causal video autoencoder, mixed image and video training, and progressive training, SeedVR achieves highly-competitive performance on both synthetic and real-world benchmarks, as well as AI-generated videos. Extensive experiments demonstrate SeedVR's superiority over existing methods for generic video restoration.
- Abstract(参考訳): ビデオの復元は、野生の未知の劣化から時間的に一貫した詳細を回復しながら、忠実さを維持することの難しさを浮き彫りにする。
近年の拡散に基づく復元の進歩にもかかわらず、これらの手法は生成能力とサンプリング効率の限界に直面していることが多い。
本研究では,任意の長さと解像度で実世界の映像復元を行うための拡散トランスフォーマであるSeedVRを提案する。
SeedVRの中核となる設計は、長いビデオシーケンスの効率的な復元を容易にする、シフトしたウィンドウアテンションにある。
SeedVRはさらに、空間次元と時間次元の境界に近い可変サイズのウィンドウをサポートし、従来のウィンドウアテンションの解像度制約を克服している。
因果的ビデオオートエンコーダ、混合画像およびビデオトレーニング、プログレッシブトレーニングなど、現代的なプラクティスを備えたSeedVRは、合成および実世界のベンチマークとAI生成ビデオの両方で高い競争力を発揮する。
大規模な実験は、既存のジェネリックビデオ復元方法よりもSeedVRの方が優れていることを示している。
関連論文リスト
- DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models [9.145545884814327]
本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。
本手法は,ゼロショット映像復元において最高の性能を発揮することを示す。
本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行うことなく,映像強調作業のための汎用的で強力なツールを提供する。
論文 参考訳(メタデータ) (2024-07-01T17:59:12Z) - ViStripformer: A Token-Efficient Transformer for Versatile Video
Restoration [42.356013390749204]
ViStripformerは、バニラトランスよりもメモリ使用量がはるかに少ない、効率的かつ効率的なトランスアーキテクチャである。
ビデオフレームを水平方向と垂直方向のストリップ状の特徴に分解し,様々な方向や大きさの劣化パターンに対処する。
論文 参考訳(メタデータ) (2023-12-22T08:05:38Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - ConVRT: Consistent Video Restoration Through Turbulence with Test-time
Optimization of Neural Video Representations [13.38405890753946]
乱流を通した連続ビデオ再生(ConVRT)を自己管理する手法を提案する。
ConVRTは、回復時の時間的一貫性を高めるように設計されたニューラルビデオ表現を特徴とするテスト時間最適化手法である。
ConVRTの重要な革新は、セマンティック指向の監視のための事前訓練された視覚言語モデル(CLIP)の統合である。
論文 参考訳(メタデータ) (2023-12-07T20:19:48Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - On the Generalization of BasicVSR++ to Video Deblurring and Denoising [98.99165593274304]
我々は、BasicVSR++をビデオ復元タスクのための汎用フレームワークに拡張する。
入力と出力が同じ空間サイズを持つタスクでは、入力解像度はストライド畳み込みによって削減され効率が維持される。
BasicVSR++からの最小限の変更だけで、提案するフレームワークは、様々なビデオ復元タスクにおいて、非常に効率よく魅力的なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-04-11T17:59:56Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Evaluating Foveated Video Quality Using Entropic Differencing [1.5877673959068452]
本稿では,帯域通過応答の自然なシーン統計を用いた画像品質評価アルゴリズムを提案する。
提案アルゴリズムは,FEDが人的判断に対して行う予測の相関性を測定して評価する。
提案アルゴリズムの性能は,既存の全参照アルゴリズムと比較して最先端である。
論文 参考訳(メタデータ) (2021-06-12T16:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。