論文の概要: DiTVR: Zero-Shot Diffusion Transformer for Video Restoration
- arxiv url: http://arxiv.org/abs/2508.07811v1
- Date: Mon, 11 Aug 2025 09:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.03685
- Title: DiTVR: Zero-Shot Diffusion Transformer for Video Restoration
- Title(参考訳): DiTVR:ビデオ再生用ゼロショット拡散変換器
- Authors: Sicheng Gao, Nancy Mehta, Zongwei Wu, Radu Timofte,
- Abstract要約: DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
- 参考スコア(独自算出の注目度): 48.97196894658511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video restoration aims to reconstruct high quality video sequences from low quality inputs, addressing tasks such as super resolution, denoising, and deblurring. Traditional regression based methods often produce unrealistic details and require extensive paired datasets, while recent generative diffusion models face challenges in ensuring temporal consistency. We introduce DiTVR, a zero shot video restoration framework that couples a diffusion transformer with trajectory aware attention and a wavelet guided, flow consistent sampler. Unlike prior 3D convolutional or frame wise diffusion approaches, our attention mechanism aligns tokens along optical flow trajectories, with particular emphasis on vital layers that exhibit the highest sensitivity to temporal dynamics. A spatiotemporal neighbour cache dynamically selects relevant tokens based on motion correspondences across frames. The flow guided sampler injects data consistency only into low-frequency bands, preserving high frequency priors while accelerating convergence. DiTVR establishes a new zero shot state of the art on video restoration benchmarks, demonstrating superior temporal consistency and detail preservation while remaining robust to flow noise and occlusions.
- Abstract(参考訳): ビデオ復元は、高品質な映像シーケンスを低品質な入力から再構築することを目的としており、スーパー解像度、デノイング、デブロワーリングといったタスクに対処することを目的としている。
従来の回帰に基づく手法は、しばしば非現実的な詳細を生成し、広範囲なペア化されたデータセットを必要とするが、最近の生成拡散モデルは、時間的一貫性を確保するための課題に直面している。
本稿では,拡散トランスフォーマとトラジェクティブアウェアメント,ウェーブレットガイド,フロー一貫性サンプリングを結合したゼロショットビデオ復元フレームワークであるDiTVRを紹介する。
従来の3次元畳み込みやフレームワイズ拡散のアプローチとは異なり、我々の注意機構は光流軌跡に沿ってトークンを整列させ、特に時間的ダイナミクスに対する高い感度を示す重要な層に重点を置いている。
時空間キャッシュは、フレーム間の動き対応に基づいて、関連するトークンを動的に選択する。
フローガイドされたサンプリング装置は、低周波帯域にのみデータ一貫性を注入し、収束を加速しながら高周波前兆を保存する。
DiTVRは、新しいゼロショットステート・オブ・ザ・アートをビデオ復元ベンチマークで確立し、優れた時間的一貫性と詳細な保存性を示しながら、フローノイズや閉塞に頑健である。
関連論文リスト
- VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate [16.826081397057774]
VGDFRは動的遅延フレームレートを持つ拡散型ビデオ生成のためのトレーニング不要のアプローチである。
VGDFRは、画質の劣化を最小限に抑えながら、ビデオ生成において最大3倍の高速化を実現することができることを示す。
論文 参考訳(メタデータ) (2025-04-16T17:09:13Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - BF-STVSR: B-Splines and Fourier-Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution [14.082598088990352]
ビデオの空間的特徴と時間的特徴をよりよく表現するために,2つのキーモジュールを備えたC-STVSRフレームワークであるBF-STVSRを提案する。
提案手法は,PSNR や SSIM など様々な指標の最先端性を実現し,空間的詳細化や時間的整合性の向上を図っている。
論文 参考訳(メタデータ) (2025-01-19T13:29:41Z) - Temporal Residual Guided Diffusion Framework for Event-Driven Video Reconstruction [23.493813870675197]
イベントベースのビデオ再構成は、ハイダイナミックレンジや高速モーションキャプチャ機能など、そのアドバンテージから注目を集めている。
現在の方法では、連続したイベントフローからの時間情報の抽出が優先され、シーン内の低周波テクスチャの特徴に過度に強調される。
本稿では,時間的・周波数的イベント前処理を効果的に活用する新しい手法である時間的残留ガイド拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-15T11:48:57Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。