Fugu-MT 論文翻訳(概要): DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

論文の概要: DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

arxiv url: http://arxiv.org/abs/2407.01519v1
Date: Mon, 1 Jul 2024 17:59:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 20:21:46.276803
Title: DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models
Title（参考訳）: DiffIR2VR-Zero:拡散型画像復元モデルによるゼロショットビデオ再生
Authors: Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu,
Abstract要約: 本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。本手法は,ゼロショット映像復元において最高の性能を発揮することを示す。本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行うことなく,映像強調作業のための汎用的で強力なツールを提供する。
参考スコア（独自算出の注目度）: 9.604155873905048
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a method for zero-shot video restoration using pre-trained image restoration diffusion models. Traditional video restoration methods often need retraining for different settings and struggle with limited generalization across various degradation types and datasets. Our approach uses a hierarchical token merging strategy for keyframes and local frames, combined with a hybrid correspondence mechanism that blends optical flow and feature-based nearest neighbor matching (latent merging). We show that our method not only achieves top performance in zero-shot video restoration but also significantly surpasses trained models in generalization across diverse datasets and extreme degradations (8$\times$ super-resolution and high-standard deviation video denoising). We present evidence through quantitative metrics and visual comparisons on various challenging datasets. Additionally, our technique works with any 2D restoration diffusion model, offering a versatile and powerful tool for video enhancement tasks without extensive retraining. This research leads to more efficient and widely applicable video restoration technologies, supporting advancements in fields that require high-quality video output. See our project page for video results at https://jimmycv07.github.io/DiffIR2VR_web/.
Abstract（参考訳）: 本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。従来のビデオ復元手法では、異なる設定で再トレーニングを行う必要があり、様々な劣化タイプやデータセットをまたいだ限定的な一般化に苦慮することが多い。提案手法では,鍵フレームと局所フレームの階層的トークンマージ戦略と,光フローと特徴に基づく近接マッチング(ラテントマージ)を融合したハイブリッド対応機構を併用する。提案手法は, ゼロショット映像復元において最高性能を達成するだけでなく, 多様なデータセットや極端な劣化(超解像・高標準偏差映像復調化8$\times$8$\times$ Super- resolution and High-standard deviation video denoising)の一般化において, 訓練されたモデルを大幅に上回ることを示す。様々な挑戦的データセットの量的指標と視覚的比較を通して証拠を提示する。さらに,本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行なわずに,映像強調作業のための汎用的で強力なツールを提供する。この研究は、高品質な映像出力を必要とする分野の進歩を支援する、より効率的で広く適用可能なビデオ復元技術をもたらす。ビデオ結果のプロジェクトページはhttps://jimmycv07.github.io/DiffIR2VR_web/にある。

関連論文リスト

Zero-Shot Video Restoration and Enhancement with Assistance of Video Diffusion Models [23.205162529582747]
本稿では,高速な映像拡散モデルを用いて,時間的整合性を維持するための画像ベース手法を提案する。画像法を補完するヘテロジェネリックテキスト・ビデオ拡散モデルとヘテロジェネリックテキスト・ビデオ拡散モデルの両方を利用するため, 潜伏子融合, 異種潜伏子融合, およびCOTベースの融合比戦略を提案する。本手法はトレーニング不要であり,任意の拡散型画像復元・拡張法に適用可能である。
論文参考訳（メタデータ） (2026-01-29T16:14:07Z)
EvDiff: High Quality Video with an Event Camera [77.07279880903009]
イベントからの強度画像の再構成は、絶対的な明るさのあいまいさが原因で、非常に不適切な作業である。 EvDiffはイベントベースの拡散モデルであり、高品質なビデオを作成するための代理トレーニングフレームワークに従う。
論文参考訳（メタデータ） (2025-11-21T18:49:18Z)
Improving Temporal Consistency and Fidelity at Inference-time in Perceptual Video Restoration by Zero-shot Image-based Diffusion Models [5.61537470581101]
ゼロショット画像ベース拡散モデルを用いたビデオ再生における時間的コヒーレンス向上の課題に対処する。本稿では,PSG(Perceptual Straightening Guidance)とMPES(Ensemble Sampling)の2つの補完的推論時間戦略を提案する。
論文参考訳（メタデータ） (2025-10-29T11:40:06Z)
LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration [3.2944592608677614]
本稿では,VCMで符号化された先行画像を用いた高精細ビデオ再生のための,最初のゼロショット・プラグ・アンド・プレイ逆解器であるLVTINOを提案する。我々の条件付け機構は、自動微分の必要性を回避し、少数のニューラルファンクション評価で最先端のビデオ再構成品質を達成する。
論文参考訳（メタデータ） (2025-10-01T18:10:08Z)
Unlocking the Potential of Diffusion Priors in Blind Face Restoration [63.419272650578165]
本研究では、2つのモードを切り替えて特定のギャップを解消する統合ネットワークFLIPNETを提案する。復元モードでは、モデルは徐々にBFR指向の特徴とLQ画像からの顔埋め込みを統合し、真正かつ忠実な顔復元を実現する。劣化モードでは、実際の劣化データセットから学んだ知識に基づいて、劣化した画像のような現実世界を合成する。
論文参考訳（メタデータ） (2025-08-12T01:50:55Z)
UniLDiff: Unlocking the Power of Diffusion Priors for All-in-One Image Restoration [16.493990086330985]
UniLDiffは、デグレッションとディテールを意識したメカニズムで強化された統合フレームワークである。劣化認識機能融合(DAFF:Degradation-Aware Feature Fusion)を導入し,低品質機能を各段階に動的に注入する。また,Detail-Aware Expert Module (DAEM) をデコーダ内に設計し,テクスチャと微細構造の回復性を高める。
論文参考訳（メタデータ） (2025-07-31T16:02:00Z)
Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T03:41:56Z)
TDM: Temporally-Consistent Diffusion Model for All-in-One Real-World Video Restoration [13.49297560533422]
本手法は,単一の統一モデルを用いて,様々な種類の映像劣化を復元することができる。本手法は,複数のアプリケーションにまたがる映像品質を向上する統合ソリューションを提供することにより,映像復元タスクを高速化する。
論文参考訳（メタデータ） (2025-01-04T12:15:37Z)
Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文参考訳（メタデータ） (2024-11-26T09:28:32Z)
Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。 VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文参考訳（メタデータ） (2024-11-25T15:14:36Z)
Quanta Video Restoration [12.708095170886313]
本稿では,古典的量子再生手法のコアアイデアに基づいて構築された,エンドツーエンドのトレーニング可能なネットワークであるQuanta Video Restoration(QUIVER)を紹介する。シミュレーションデータと実データでは、QUIVERは既存のQuanta復元法をかなりの差で上回っている。
論文参考訳（メタデータ） (2024-10-19T05:50:12Z)
UIR-LoRA: Achieving Universal Image Restoration through Multiple Low-Rank Adaptation [50.27688690379488]
既存の統合手法は、マルチタスク学習問題として、多重劣化画像復元を扱う。本稿では,複数のローランクアダプタ(LoRA)をベースとした汎用画像復元フレームワークを提案する。本フレームワークは, 学習前の生成モデルを多段劣化復元のための共有コンポーネントとして利用し, 特定の劣化画像復元タスクに転送する。
論文参考訳（メタデータ） (2024-09-30T11:16:56Z)
Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文参考訳（メタデータ） (2024-07-04T05:01:10Z)
Zero-Shot Video Restoration and Enhancement Using Pre-Trained Image Diffusion Model [15.170889156729777]
本稿では,事前学習した画像拡散モデルに基づいて,ゼロショット映像の復元と拡張を行うための第1のフレームワークを提案する。本手法は,任意の拡散型画像復元・拡張手法に挿入可能なプラグアンドプレイモジュールである。
論文参考訳（メタデータ） (2024-07-02T05:31:59Z)
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文参考訳（メタデータ） (2024-06-03T00:31:13Z)
Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models [14.25759541950917]
この研究は、能動的視覚言語モデルと合成分解パイプラインを活用して、野生(ワイルドIR)における画像復元を学習する。我々の基底拡散モデルは画像復元SDE(IR-SDE)である。
論文参考訳（メタデータ） (2024-04-15T12:34:21Z)
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文参考訳（メタデータ） (2024-02-16T07:48:35Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
VCISR: Blind Single Image Super-Resolution with Video Compression Synthetic Data [18.877077302923713]
本稿では,映像圧縮に基づく劣化モデルを用いて,ブラインドSISRタスクにおける低解像度画像データを合成する。提案手法は既存の画像データセットに適用可能である。 SISR分解モデルにビデオ符号化アーティファクトを導入することで、ニューラルネットワークは、ビデオ圧縮劣化を復元する機能を備えた、画像の超解凍を可能にする。
論文参考訳（メタデータ） (2023-11-02T05:24:19Z)
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文参考訳（メタデータ） (2023-09-07T08:12:58Z)
Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。 2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文参考訳（メタデータ） (2023-09-04T14:18:00Z)
Diffusion Models for Image Restoration and Enhancement -- A Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文参考訳（メタデータ） (2023-08-18T08:40:38Z)
DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文参考訳（メタデータ） (2023-03-13T06:05:18Z)
A Simple Baseline for Video Restoration with Grouped Spatial-temporal Shift [36.71578909392314]
本研究では,ビデオ復元のための簡易かつ効果的なフレームワークを提案する。我々のアプローチは、軽量で簡単な手法であるグループ化された時空間シフトに基づいている。我々のフレームワークは従来の最先端手法よりも優れており、計算コストの4分の1以下である。
論文参考訳（メタデータ） (2022-06-22T02:16:47Z)
Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。 RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-06-05T10:36:09Z)
VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文参考訳（メタデータ） (2022-01-28T17:54:43Z)
Boosting the Performance of Video Compression Artifact Reduction with Reference Frame Proposals and Frequency Domain Information [31.053879834073502]
本稿では,既存のマルチフレーム手法の性能向上のための効果的な参照フレーム提案手法を提案する。実験結果から,MFQE 2.0データセットの忠実度と知覚性能は最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2021-05-31T13:46:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。