論文の概要: DIVD: Deblurring with Improved Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2412.00773v1
- Date: Sun, 01 Dec 2024 11:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:01.884011
- Title: DIVD: Deblurring with Improved Video Diffusion Model
- Title(参考訳): DIVD: ビデオ拡散モデルの改良によるデブロアリング
- Authors: Haoyang Long, Yan Wang, Wendong Wang,
- Abstract要約: 拡散モデルとビデオ拡散モデルは、画像生成やビデオ生成の分野で優れている。
本稿では,ビデオデブロアリングに特化してビデオ拡散モデルを提案する。
我々のモデルは既存のモデルより優れており、様々な知覚的指標について最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 8.816046910904488
- License:
- Abstract: Video deblurring presents a considerable challenge owing to the complexity of blur, which frequently results from a combination of camera shakes, and object motions. In the field of video deblurring, many previous works have primarily concentrated on distortion-based metrics, such as PSNR. However, this approach often results in a weak correlation with human perception and yields reconstructions that lack realism. Diffusion models and video diffusion models have respectively excelled in the fields of image and video generation, particularly achieving remarkable results in terms of image authenticity and realistic perception. However, due to the computational complexity and challenges inherent in adapting diffusion models, there is still uncertainty regarding the potential of video diffusion models in video deblurring tasks. To explore the viability of video diffusion models in the task of video deblurring, we introduce a diffusion model specifically for this purpose. In this field, leveraging highly correlated information between adjacent frames and addressing the challenge of temporal misalignment are crucial research directions. To tackle these challenges, many improvements based on the video diffusion model are introduced in this work. As a result, our model outperforms existing models and achieves state-of-the-art results on a range of perceptual metrics. Our model preserves a significant amount of detail in the images while maintaining competitive distortion metrics. Furthermore, to the best of our knowledge, this is the first time the diffusion model has been applied in video deblurring to overcome the limitations mentioned above.
- Abstract(参考訳): ビデオのデブロアリングは、カメラの揺れと物体の動きの組み合わせによってしばしば生じる、ぼやけの複雑さによって、かなりの困難を生んでいる。
ビデオデブロアリングの分野では、PSNRのような歪みに基づくメトリクスに主に焦点が当てられている。
しかし、このアプローチはしばしば人間の知覚と弱い相関性をもたらし、現実主義を欠いた再建をもたらす。
拡散モデルと拡散モデルはそれぞれ、画像生成と映像生成の分野で優れており、特に画像の真性や現実的な知覚の点で顕著な成果を上げている。
しかし、拡散モデルの適用に固有の計算複雑性と課題のため、ビデオデブロアリングタスクにおけるビデオ拡散モデルの可能性については、いまだ不確実性がある。
本稿では,映像拡散モデルの実現可能性を探るため,この目的に特化して拡散モデルを導入する。
この分野では、隣接するフレーム間の高度に相関した情報を活用し、時間的ミスアライメントの課題に対処することが重要な研究方向である。
これらの課題に対処するために,本研究では,映像拡散モデルに基づく多くの改良が紹介されている。
その結果,我々のモデルは既存のモデルより優れており,様々な知覚的指標について最先端の結果が得られることがわかった。
我々のモデルは、競合する歪みの指標を維持しながら、画像のかなりの詳細を保存します。
さらに、我々の知る限りでは、上述の制限を克服するために拡散モデルがビデオデブロアリングに適用されたのはこれが初めてである。
関連論文リスト
- Your Image is Secretly the Last Frame of a Pseudo Video [20.161039114393148]
擬似ビデオを用いた他の生成モデルの改善の可能性を検討する。
具体的には、まず所定の画像生成モデルをビデオ生成モデルに拡張し、次に元の画像にデータ拡張を適用して構築した擬似ビデオ上でビデオ生成モデルを訓練する。
論文 参考訳(メタデータ) (2024-10-26T12:15:25Z) - Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models [6.408114351192012]
ビデオモデルは広範なトレーニングと計算資源を必要とし、高いコストと環境への影響をもたらす。
本稿では、画像拡散モデルを拡張して、細部を保ちながら連続的なアニメーションフレームを作成することによって、映像生成に新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-05T12:53:05Z) - Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。
本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。
また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文 参考訳(メタデータ) (2024-09-04T09:48:27Z) - VDPI: Video Deblurring with Pseudo-inverse Modeling [8.91065618315995]
ビデオデブロワーリングは、ぼやけやうるさい観察からシャープなシーケンスを復元することを目的とした課題である。
画像形成モデルは、従来のモデルベースの手法において重要な役割を担い、可能な解決策を制約する。
本稿では,ぼかしの擬似逆数を用いて,画像形成モデルの知識を深層学習ネットワークに導入することを提案する。
論文 参考訳(メタデータ) (2024-09-01T16:44:21Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - A Survey on Video Diffusion Models [103.03565844371711]
AI生成コンテンツ(AIGC)の最近の波は、コンピュータビジョンでかなりの成功を収めている。
その印象的な生成能力のため、拡散モデルは徐々にGANと自動回帰変換器に基づく手法に取って代わられている。
本稿では,AIGC時代の映像拡散モデルについて概観する。
論文 参考訳(メタデータ) (2023-10-16T17:59:28Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。