論文の概要: DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models
- arxiv url: http://arxiv.org/abs/2407.01519v4
- Date: Tue, 25 Mar 2025 15:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:49:43.564281
- Title: DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models
- Title(参考訳): DiffIR2VR-Zero:拡散型画像復元モデルによるゼロショットビデオ再生
- Authors: Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Hau-Shiang Shiu, Yu-Lun Liu,
- Abstract要約: DiffIR2VR-Zeroは、任意の事前訓練された画像復元モデルで、追加のトレーニングなしで高品質な映像復元を行うことができるゼロショットフレームワークである。
我々のフレームワークは、任意の画像復元拡散モデルで動作し、タスク固有のトレーニングや修正なしに、映像強調のための汎用的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 9.145545884814327
- License:
- Abstract: We present DiffIR2VR-Zero, a zero-shot framework that enables any pre-trained image restoration diffusion model to perform high-quality video restoration without additional training. While image diffusion models have shown remarkable restoration capabilities, their direct application to video leads to temporal inconsistencies, and existing video restoration methods require extensive retraining for different degradation types. Our approach addresses these challenges through two key innovations: a hierarchical latent warping strategy that maintains consistency across both keyframes and local frames, and a hybrid token merging mechanism that adaptively combines optical flow and feature matching. Through extensive experiments, we demonstrate that our method not only maintains the high-quality restoration of base diffusion models but also achieves superior temporal consistency across diverse datasets and degradation conditions, including challenging scenarios like 8$\times$ super-resolution and severe noise. Importantly, our framework works with any image restoration diffusion model, providing a versatile solution for video enhancement without task-specific training or modifications.
- Abstract(参考訳): DiffIR2VR-Zeroは、事前訓練された画像復元拡散モデルで、追加のトレーニングなしで高品質な映像復元を行うことができるゼロショットフレームワークである。
画像拡散モデルは顕著な復元能力を示したが、ビデオへの直接的適用は時間的不整合を招き、既存のビデオ復元法は様々な劣化タイプに対して広範囲な再訓練を必要とする。
当社のアプローチでは,鍵フレームと局所フレームの整合性を維持する階層的遅延ワープ戦略と,光フローと特徴マッチングを適応的に組み合わせたハイブリッドトークンマージ機構という,2つの重要なイノベーションを通じて,これらの課題に対処しています。
広範にわたる実験により,本手法はベース拡散モデルの高品質な復元を維持できるだけでなく,8$\times$超分解能や重騒音といった難題を含む,多様なデータセットや劣化条件の時間的整合性も向上することを示した。
重要なことは、我々のフレームワークは、任意の画像復元拡散モデルで動作し、タスク固有のトレーニングや修正なしに、ビデオの強化のための汎用的なソリューションを提供する。
関連論文リスト
- TDM: Temporally-Consistent Diffusion Model for All-in-One Real-World Video Restoration [13.49297560533422]
本手法は,単一の統一モデルを用いて,様々な種類の映像劣化を復元することができる。
本手法は,複数のアプリケーションにまたがる映像品質を向上する統合ソリューションを提供することにより,映像復元タスクを高速化する。
論文 参考訳(メタデータ) (2025-01-04T12:15:37Z) - Reversing the Damage: A QP-Aware Transformer-Diffusion Approach for 8K Video Restoration under Codec Compression [0.0]
DiQPは8Kビデオ品質を圧縮によって劣化させる新しいトランスフォーマー拡散モデルである。
我々のアーキテクチャは、拡張されたウィンドウ機構で長距離依存関係をキャプチャするトランスフォーマーのパワーを組み合わせています。
我々のモデルは最先端の手法、特に4Kや8Kのような高精細度ビデオよりも優れています。
論文 参考訳(メタデータ) (2024-12-12T03:49:22Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。
圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。
VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文 参考訳(メタデータ) (2024-11-25T15:14:36Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - VCISR: Blind Single Image Super-Resolution with Video Compression
Synthetic Data [18.877077302923713]
本稿では,映像圧縮に基づく劣化モデルを用いて,ブラインドSISRタスクにおける低解像度画像データを合成する。
提案手法は既存の画像データセットに適用可能である。
SISR分解モデルにビデオ符号化アーティファクトを導入することで、ニューラルネットワークは、ビデオ圧縮劣化を復元する機能を備えた、画像の超解凍を可能にする。
論文 参考訳(メタデータ) (2023-11-02T05:24:19Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - A Simple Baseline for Video Restoration with Grouped Spatial-temporal
Shift [36.71578909392314]
本研究では,ビデオ復元のための簡易かつ効果的なフレームワークを提案する。
我々のアプローチは、軽量で簡単な手法であるグループ化された時空間シフトに基づいている。
我々のフレームワークは従来の最先端手法よりも優れており、計算コストの4分の1以下である。
論文 参考訳(メタデータ) (2022-06-22T02:16:47Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。