Fugu-MT 論文翻訳(概要): TDM: Temporally-Consistent Diffusion Model for All-in-One Real-World Video Restoration

論文の概要: TDM: Temporally-Consistent Diffusion Model for All-in-One Real-World Video Restoration

arxiv url: http://arxiv.org/abs/2501.02269v1
Date: Sat, 04 Jan 2025 12:15:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:51.00218
Title: TDM: Temporally-Consistent Diffusion Model for All-in-One Real-World Video Restoration
Title（参考訳）: TDM:オールインワンリアルタイムビデオ再生のための一時持続拡散モデル
Authors: Yizhou Li, Zihua Liu, Yusuke Monno, Masatoshi Okutomi,
Abstract要約: 本手法は,単一の統一モデルを用いて,様々な種類の映像劣化を復元することができる。本手法は,複数のアプリケーションにまたがる映像品質を向上する統合ソリューションを提供することにより,映像復元タスクを高速化する。
参考スコア（独自算出の注目度）: 13.49297560533422
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose the first diffusion-based all-in-one video restoration method that utilizes the power of a pre-trained Stable Diffusion and a fine-tuned ControlNet. Our method can restore various types of video degradation with a single unified model, overcoming the limitation of standard methods that require specific models for each restoration task. Our contributions include an efficient training strategy with Task Prompt Guidance (TPG) for diverse restoration tasks, an inference strategy that combines Denoising Diffusion Implicit Models~(DDIM) inversion with a novel Sliding Window Cross-Frame Attention (SW-CFA) mechanism for enhanced content preservation and temporal consistency, and a scalable pipeline that makes our method all-in-one to adapt to different video restoration tasks. Through extensive experiments on five video restoration tasks, we demonstrate the superiority of our method in generalization capability to real-world videos and temporal consistency preservation over existing state-of-the-art methods. Our method advances the video restoration task by providing a unified solution that enhances video quality across multiple applications.
Abstract（参考訳）: 本稿では,事前訓練された安定拡散と微調整された制御ネットのパワーを利用する,拡散型オールインワンビデオ復元法を提案する。本手法は,1つの統一モデルを用いて様々な種類の映像劣化を復元することができ,各復元作業に特定のモデルを必要とする標準手法の制限を克服することができる。我々のコントリビューションには、多様な修復作業のためのタスクプロンプトガイダンス(TPG)による効率的なトレーニング戦略、コンテンツ保存と時間的整合性を高めるための新しいスライディングウィンドウクロスフレームアテンション(SW-CFA)機構とDDIMインバージョンを組み合わせた推論戦略、異なるビデオ復元タスクにオールインワンで適応するためのスケーラブルなパイプラインなどが含まれます。 5つのビデオ復元タスクに関する広範囲な実験を通じて,本手法が実世界のビデオに対して一般化し,既存の最先端手法よりも時間的一貫性を保っていることを実証した。本手法は,複数のアプリケーションにまたがって映像品質を向上させる統一的なソリューションを提供することにより,映像復元作業を進める。

関連論文リスト

Super-Resolution Generative Adversarial Networks based Video Enhancement [0.40964539027092906]
本研究は、通常のシングルイメージSIS(SRGAN)構造を拡張して、対数データを扱うことで、ビデオ超解像への拡張アプローチを導入する。 3次元非局所ブロックを組み込んだ修正フレームワークが開発され、空間次元と時間次元の両方で関係を捉えることができる。その結果、従来の単一画像法と比較して、時間的コヒーレンス、よりシャープなテクスチャ、視覚的アーティファクトが向上した。
論文参考訳（メタデータ） (2025-05-14T20:16:51Z)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
SVFR: A Unified Framework for Generalized Video Face Restoration [86.17060212058452]
顔復元(FR)は画像およびビデオ処理において重要な領域であり、劣化した入力から高品質な肖像画を再構成することに焦点を当てている。本稿では,映像BFR,インペイント,カラー化タスクを統合した汎用映像顔復元タスクを提案する。この研究は、ビデオFRにおける最先端技術を進め、一般化されたビデオ顔の復元のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-01-02T12:51:20Z)
Learning Truncated Causal History Model for Video Restoration [14.381907888022615]
TURTLEは、効率的かつ高性能なビデオ復元のための散在した因果履歴モデルを学ぶ。我々は,多数のビデオ復元ベンチマークタスクに関する最新の結果について報告する。
論文参考訳（メタデータ） (2024-10-04T21:31:02Z)
UIR-LoRA: Achieving Universal Image Restoration through Multiple Low-Rank Adaptation [50.27688690379488]
既存の統合手法は、マルチタスク学習問題として、多重劣化画像復元を扱う。本稿では,複数のローランクアダプタ(LoRA)をベースとした汎用画像復元フレームワークを提案する。本フレームワークは, 学習前の生成モデルを多段劣化復元のための共有コンポーネントとして利用し, 特定の劣化画像復元タスクに転送する。
論文参考訳（メタデータ） (2024-09-30T11:16:56Z)
DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models [9.145545884814327]
本稿では,事前学習画像復元拡散モデルを用いたゼロショット映像復元手法を提案する。本手法は,ゼロショット映像復元において最高の性能を発揮することを示す。本手法は任意の2次元復元拡散モデルで動作し,広範に再トレーニングを行うことなく,映像強調作業のための汎用的で強力なツールを提供する。
論文参考訳（メタデータ） (2024-07-01T17:59:12Z)
ConVRT: Consistent Video Restoration Through Turbulence with Test-time Optimization of Neural Video Representations [13.38405890753946]
乱流を通した連続ビデオ再生(ConVRT)を自己管理する手法を提案する。 ConVRTは、回復時の時間的一貫性を高めるように設計されたニューラルビデオ表現を特徴とするテスト時間最適化手法である。 ConVRTの重要な革新は、セマンティック指向の監視のための事前訓練された視覚言語モデル(CLIP)の統合である。
論文参考訳（メタデータ） (2023-12-07T20:19:48Z)
PGDiff: Guiding Diffusion Models for Versatile Face Restoration via Partial Guidance [65.5618804029422]
これまでの研究は、明示的な劣化モデルを用いて解空間を制限することで、注目すべき成功を収めてきた。実世界の劣化に適応可能な新しい視点である部分的ガイダンスを導入することでPGDiffを提案する。提案手法は,既存の拡散優先手法に勝るだけでなく,タスク固有モデルと良好に競合する。
論文参考訳（メタデータ） (2023-09-19T17:51:33Z)
Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。 2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文参考訳（メタデータ） (2023-09-04T14:18:00Z)
An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文参考訳（メタデータ） (2020-12-24T00:03:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。