論文の概要: LDMVFI: Video Frame Interpolation with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.09508v1
- Date: Thu, 16 Mar 2023 17:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:27:28.162459
- Title: LDMVFI: Video Frame Interpolation with Latent Diffusion Models
- Title(参考訳): LDMVFI:潜時拡散モデルを用いたビデオフレーム補間
- Authors: Duolikun Danier, Fan Zhang, David Bull
- Abstract要約: 既存のビデオフレーム(VFI)の研究は主に、出力と接地木フレームの間のL1またはL2距離を最小化するために訓練されたディープニューラルネットワークを使用している。
本稿では, 遅延拡散モデルに基づくVFI, LDMVFIを提案する。
LDMVFIは,高解像度のシステムであっても,映像コンテンツを高い知覚品質で補間できることを示す実験とユーザスタディを行った。
- 参考スコア(独自算出の注目度): 4.151439675744056
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing works on video frame interpolation (VFI) mostly employ deep neural
networks trained to minimize the L1 or L2 distance between their outputs and
ground-truth frames. Despite recent advances, existing VFI methods tend to
produce perceptually inferior results, particularly for challenging scenarios
including large motions and dynamic textures. Towards developing
perceptually-oriented VFI methods, we propose latent diffusion model-based VFI,
LDMVFI. This approaches the VFI problem from a generative perspective by
formulating it as a conditional generation problem. As the first effort to
address VFI using latent diffusion models, we rigorously benchmark our method
following the common evaluation protocol adopted in the existing VFI
literature. Our quantitative experiments and user study indicate that LDMVFI is
able to interpolate video content with superior perceptual quality compared to
the state of the art, even in the high-resolution regime. Our source code will
be made available here.
- Abstract(参考訳): 既存のビデオフレーム補間(VFI)の研究は、主に出力と接地木フレームの間のL1またはL2距離を最小化するために訓練されたディープニューラルネットワークを使用している。
近年の進歩にもかかわらず、既存のVFI手法は知覚的に劣る結果をもたらす傾向にあり、特に大きな動きや動的テクスチャを含む挑戦的なシナリオでは顕著である。
知覚指向型VFI法の開発に向けて,潜在拡散モデルに基づくVFI,LDMVFIを提案する。
これは、VFI問題を条件生成問題として定式化することで、生成の観点からアプローチする。
遅延拡散モデルを用いてVFIに対処する最初の試みとして、既存のVFI文献で採用されている共通評価プロトコルに従って、我々の手法を厳格にベンチマークする。
ldmvfiの定量的実験とユーザスタディにより,高分解能環境においても,映像コンテンツは美術品よりも優れた知覚品質で補間可能であることが示された。
ソースコードはここで入手できます。
関連論文リスト
- Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Flow-Guided Diffusion for Video Inpainting [15.478104117672803]
ビデオのインペイントは、大きな動きや低照度条件のような複雑なシナリオによって挑戦されてきた。
新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。
本稿では、時間的一貫性と塗装品質を大幅に向上させる新しい手法であるFGDVI(Flow-Guided Diffusion Model for Video Inpainting)を提案する。
論文 参考訳(メタデータ) (2023-11-26T17:48:48Z) - A Multi-In-Single-Out Network for Video Frame Interpolation without
Optical Flow [14.877766449009119]
深層学習に基づくビデオフレーム (VFI) 法は、2つの入力フレーム間の動きを推定することに集中している。
動作ベクトル推定に依存しないマルチインシングルアウト(MISO)に基づくVFI法を提案する。
我々はMISO-VFIがビデオフレーム内のベクトル時間をよりよくキャプチャできる新しい動き知覚損失を導入した。
論文 参考訳(メタデータ) (2023-11-20T08:29:55Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Exploring Vision Transformers as Diffusion Learners [15.32238726790633]
様々な生成タスクのための拡散学習者として視覚変換器を体系的に探索する。
我々の改良により、バニラVTベースのバックボーン(IU-ViT)の性能は従来のU-Netベースの方法と同等に向上した。
我々は、64x64解像度を超えるテキスト・ツー・イメージタスクで単一の拡散モデルをトレーニングした最初の人です。
論文 参考訳(メタデータ) (2022-12-28T10:32:59Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。