論文の概要: DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models
- arxiv url: http://arxiv.org/abs/2407.01519v2
- Date: Fri, 19 Jul 2024 16:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 22:28:39.906869
- Title: DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models
- Title(参考訳): DiffIR2VR-Zero:拡散型画像復元モデルによるゼロショットビデオ再生
- Authors: Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu,
- Abstract要約: 本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。
本手法は,ゼロショット映像復元において最高の性能を発揮することを示す。
本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行うことなく,映像強調作業のための汎用的で強力なツールを提供する。
- 参考スコア(独自算出の注目度): 9.604155873905048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a method for zero-shot video restoration using pre-trained image restoration diffusion models. Traditional video restoration methods often need retraining for different settings and struggle with limited generalization across various degradation types and datasets. Our approach uses a hierarchical token merging strategy for keyframes and local frames, combined with a hybrid correspondence mechanism that blends optical flow and feature-based nearest neighbor matching (latent merging). We show that our method not only achieves top performance in zero-shot video restoration but also significantly surpasses trained models in generalization across diverse datasets and extreme degradations (8$\times$ super-resolution and high-standard deviation video denoising). We present evidence through quantitative metrics and visual comparisons on various challenging datasets. Additionally, our technique works with any 2D restoration diffusion model, offering a versatile and powerful tool for video enhancement tasks without extensive retraining. This research leads to more efficient and widely applicable video restoration technologies, supporting advancements in fields that require high-quality video output. See our project page for video results at https://jimmycv07.github.io/DiffIR2VR_web/.
- Abstract(参考訳): 本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。
従来のビデオ復元手法では、異なる設定で再トレーニングを行う必要があり、様々な劣化タイプやデータセットをまたいだ限定的な一般化に苦慮することが多い。
提案手法では,鍵フレームと局所フレームの階層的トークンマージ戦略と,光フローと特徴に基づく近接マッチング(ラテントマージ)を融合したハイブリッド対応機構を併用する。
提案手法は, ゼロショット映像復元において最高性能を達成するだけでなく, 多様なデータセットや極端な劣化(超解像・高標準偏差映像復調化8$\times$8$\times$ Super- resolution and High-standard deviation video denoising)の一般化において, 訓練されたモデルを大幅に上回ることを示す。
様々な挑戦的データセットの量的指標と視覚的比較を通して証拠を提示する。
さらに,本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行なわずに,映像強調作業のための汎用的で強力なツールを提供する。
この研究は、高品質な映像出力を必要とする分野の進歩を支援する、より効率的で広く適用可能なビデオ復元技術をもたらす。
ビデオ結果のプロジェクトページはhttps://jimmycv07.github.io/DiffIR2VR_web/にある。
関連論文リスト
- ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - VCISR: Blind Single Image Super-Resolution with Video Compression
Synthetic Data [18.877077302923713]
本稿では,映像圧縮に基づく劣化モデルを用いて,ブラインドSISRタスクにおける低解像度画像データを合成する。
提案手法は既存の画像データセットに適用可能である。
SISR分解モデルにビデオ符号化アーティファクトを導入することで、ニューラルネットワークは、ビデオ圧縮劣化を復元する機能を備えた、画像の超解凍を可能にする。
論文 参考訳(メタデータ) (2023-11-02T05:24:19Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - A Simple Baseline for Video Restoration with Grouped Spatial-temporal
Shift [36.71578909392314]
本研究では,ビデオ復元のための簡易かつ効果的なフレームワークを提案する。
我々のアプローチは、軽量で簡単な手法であるグループ化された時空間シフトに基づいている。
我々のフレームワークは従来の最先端手法よりも優れており、計算コストの4分の1以下である。
論文 参考訳(メタデータ) (2022-06-22T02:16:47Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Boosting the Performance of Video Compression Artifact Reduction with
Reference Frame Proposals and Frequency Domain Information [31.053879834073502]
本稿では,既存のマルチフレーム手法の性能向上のための効果的な参照フレーム提案手法を提案する。
実験結果から,MFQE 2.0データセットの忠実度と知覚性能は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-05-31T13:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。