論文の概要: LDMVFI: Video Frame Interpolation with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.09508v1
- Date: Thu, 16 Mar 2023 17:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:27:28.162459
- Title: LDMVFI: Video Frame Interpolation with Latent Diffusion Models
- Title(参考訳): LDMVFI:潜時拡散モデルを用いたビデオフレーム補間
- Authors: Duolikun Danier, Fan Zhang, David Bull
- Abstract要約: 既存のビデオフレーム(VFI)の研究は主に、出力と接地木フレームの間のL1またはL2距離を最小化するために訓練されたディープニューラルネットワークを使用している。
本稿では, 遅延拡散モデルに基づくVFI, LDMVFIを提案する。
LDMVFIは,高解像度のシステムであっても,映像コンテンツを高い知覚品質で補間できることを示す実験とユーザスタディを行った。
- 参考スコア(独自算出の注目度): 4.151439675744056
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing works on video frame interpolation (VFI) mostly employ deep neural
networks trained to minimize the L1 or L2 distance between their outputs and
ground-truth frames. Despite recent advances, existing VFI methods tend to
produce perceptually inferior results, particularly for challenging scenarios
including large motions and dynamic textures. Towards developing
perceptually-oriented VFI methods, we propose latent diffusion model-based VFI,
LDMVFI. This approaches the VFI problem from a generative perspective by
formulating it as a conditional generation problem. As the first effort to
address VFI using latent diffusion models, we rigorously benchmark our method
following the common evaluation protocol adopted in the existing VFI
literature. Our quantitative experiments and user study indicate that LDMVFI is
able to interpolate video content with superior perceptual quality compared to
the state of the art, even in the high-resolution regime. Our source code will
be made available here.
- Abstract(参考訳): 既存のビデオフレーム補間(VFI)の研究は、主に出力と接地木フレームの間のL1またはL2距離を最小化するために訓練されたディープニューラルネットワークを使用している。
近年の進歩にもかかわらず、既存のVFI手法は知覚的に劣る結果をもたらす傾向にあり、特に大きな動きや動的テクスチャを含む挑戦的なシナリオでは顕著である。
知覚指向型VFI法の開発に向けて,潜在拡散モデルに基づくVFI,LDMVFIを提案する。
これは、VFI問題を条件生成問題として定式化することで、生成の観点からアプローチする。
遅延拡散モデルを用いてVFIに対処する最初の試みとして、既存のVFI文献で採用されている共通評価プロトコルに従って、我々の手法を厳格にベンチマークする。
ldmvfiの定量的実験とユーザスタディにより,高分解能環境においても,映像コンテンツは美術品よりも優れた知覚品質で補間可能であることが示された。
ソースコードはここで入手できます。
関連論文リスト
- Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Exploring Vision Transformers as Diffusion Learners [15.32238726790633]
様々な生成タスクのための拡散学習者として視覚変換器を体系的に探索する。
我々の改良により、バニラVTベースのバックボーン(IU-ViT)の性能は従来のU-Netベースの方法と同等に向上した。
我々は、64x64解像度を超えるテキスト・ツー・イメージタスクで単一の拡散モデルをトレーニングした最初の人です。
論文 参考訳(メタデータ) (2022-12-28T10:32:59Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [79.50701155336196]
近年の拡散モデルの発展は、多くの世代における重要なマイルストーンとなっている。
既存の単一フロー拡散パイプラインを Versatile Diffusion (VD) と呼ばれるマルチフローネットワークに拡張する。
VDは1つの統一されたモデルで、テキスト・ツー・イメージ・トゥ・テキスト、イメージ・ヴァレージョン、およびテキスト・ヴァレージョンを処理する。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - Spatio-Temporal Multi-Flow Network for Video Frame Interpolation [3.6053802212032995]
ビデオフレーム(VFI)は、コンピュータビジョン、ポストプロダクション、ビデオエンコーディングなど、非常に活発な研究トピックである。
本稿では,時空間マルチフローアーキテクチャに基づく新しい深層学習型VFI手法ST-MFNetを提案する。
論文 参考訳(メタデータ) (2021-11-30T15:18:46Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。