論文の概要: SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training
- arxiv url: http://arxiv.org/abs/2506.05301v1
- Date: Thu, 05 Jun 2025 17:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.872548
- Title: SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training
- Title(参考訳): SeedVR2:拡散逆行によるワンステップビデオ再生
- Authors: Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang,
- Abstract要約: 実データに対する対角的VRトレーニングを行うセドVR2と呼ばれる一段階拡散型VRモデルを提案する。
単一ステップで高精細度VRを扱うために、モデルアーキテクチャとトレーニング手順の両方にいくつかの拡張を導入する。
- 参考スコア(独自算出の注目度): 82.68200031146299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion-based video restoration (VR) demonstrate significant improvement in visual quality, yet yield a prohibitive computational cost during inference. While several distillation-based approaches have exhibited the potential of one-step image restoration, extending existing approaches to VR remains challenging and underexplored, particularly when dealing with high-resolution video in real-world settings. In this work, we propose a one-step diffusion-based VR model, termed as SeedVR2, which performs adversarial VR training against real data. To handle the challenging high-resolution VR within a single step, we introduce several enhancements to both model architecture and training procedures. Specifically, an adaptive window attention mechanism is proposed, where the window size is dynamically adjusted to fit the output resolutions, avoiding window inconsistency observed under high-resolution VR using window attention with a predefined window size. To stabilize and improve the adversarial post-training towards VR, we further verify the effectiveness of a series of losses, including a proposed feature matching loss without significantly sacrificing training efficiency. Extensive experiments show that SeedVR2 can achieve comparable or even better performance compared with existing VR approaches in a single step.
- Abstract(参考訳): 近年の拡散型ビデオ再生(VR)の進歩は視覚的品質を著しく向上させたが、推論の際には計算コストが禁じられている。
蒸留法に基づくいくつかのアプローチは、一段階のイメージ復元の可能性を示しているが、既存のVRへのアプローチは、特に現実世界で高解像度のビデオを扱う際には、困難かつ未探索のままである。
本研究では,実データに対する対角的VRトレーニングを行うセドVR2と呼ばれる一段階拡散型VRモデルを提案する。
単一ステップで高精細度VRを扱うために、モデルアーキテクチャとトレーニング手順の両方にいくつかの拡張を導入する。
具体的には、ウィンドウサイズを動的に調整して出力解像度に適合させる適応型ウィンドウアテンション機構を提案する。
また,VRに対する対戦後学習の安定化と改善を図るため,提案した特徴マッチング損失を含む一連の損失の有効性を,トレーニング効率を著しく損なうことなく検証する。
大規模な実験により、SeedVR2は1ステップで既存のVRアプローチと同等またはそれ以上のパフォーマンスを達成できることが示された。
関連論文リスト
- VRSplat: Fast and Robust Gaussian Splatting for Virtual Reality [47.738522999465864]
われわれはVRSplatを導入し、3DGSの最近の進歩を総合してVRの難題に挑戦する。
VRSplatは、最新のVRアプリケーションをサポートし、ポップアップやステレオ破壊フローターを排除しながら72以上のFPSを達成することができる、最初の、体系的に評価された3DGSアプローチである。
論文 参考訳(メタデータ) (2025-05-15T10:17:48Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration [73.70209718408641]
SeedVRは、任意の長さと解像度で現実世界のビデオ再生を処理するために設計された拡散トランスフォーマーである。
合成ベンチマークと実世界のベンチマーク、AI生成ビデオで高い競争力を発揮する。
論文 参考訳(メタデータ) (2025-01-02T16:19:48Z) - Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video
Restoration [85.3323211054274]
ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(VR)において重要であるが未解決の課題である。
本研究では,この問題を解決するために,教師なしフローアライメントシーケンス・ツー・シーケンス・モデル(S2SVR)を提案する。
S2SVRは、ビデオデブリ、ビデオスーパー解像度、圧縮されたビデオ品質向上など、複数のVRタスクにおいて優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-05-20T14:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。