論文の概要: H-VFI: Hierarchical Frame Interpolation for Videos with Large Motions
- arxiv url: http://arxiv.org/abs/2211.11309v1
- Date: Mon, 21 Nov 2022 09:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:01:51.033764
- Title: H-VFI: Hierarchical Frame Interpolation for Videos with Large Motions
- Title(参考訳): H-VFI:大きな動きを持つビデオの階層的フレーム補間
- Authors: Changlin Li, Guangyang Wu, Yanan Sun, Xin Tao, Chi-Keung Tang, Yu-Wing
Tai
- Abstract要約: 本稿では,ビデオフレームにおける大きな動きに対処する,単純で効果的なH-VFI法を提案する。
H-VFIは、粗大な戦略で変形可能なカーネルを学習するために階層型ビデオ変換器に寄与する。
このようなプログレッシブ近似の利点は、大きなモーションフレーム問題を比較的単純ないくつかのサブタスクに予測できることである。
- 参考スコア(独自算出の注目度): 63.23985601478339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capitalizing on the rapid development of neural networks, recent video frame
interpolation (VFI) methods have achieved notable improvements. However, they
still fall short for real-world videos containing large motions. Complex
deformation and/or occlusion caused by large motions make it an extremely
difficult problem in video frame interpolation. In this paper, we propose a
simple yet effective solution, H-VFI, to deal with large motions in video frame
interpolation. H-VFI contributes a hierarchical video interpolation transformer
(HVIT) to learn a deformable kernel in a coarse-to-fine strategy in multiple
scales. The learnt deformable kernel is then utilized in convolving the input
frames for predicting the interpolated frame. Starting from the smallest scale,
H-VFI updates the deformable kernel by a residual in succession based on former
predicted kernels, intermediate interpolated results and hierarchical features
from transformer. Bias and masks to refine the final outputs are then predicted
by a transformer block based on interpolated results. The advantage of such a
progressive approximation is that the large motion frame interpolation problem
can be decomposed into several relatively simpler sub-tasks, which enables a
very accurate prediction in the final results. Another noteworthy contribution
of our paper consists of a large-scale high-quality dataset, YouTube200K, which
contains videos depicting a great variety of scenarios captured at high
resolution and high frame rate. Extensive experiments on multiple frame
interpolation benchmarks validate that H-VFI outperforms existing
state-of-the-art methods especially for videos with large motions.
- Abstract(参考訳): ニューラルネットワークの急速な発展により、最近のビデオフレーム補間(VFI)法は目覚ましい改善を遂げた。
しかし、大きな動きを含む現実世界のビデオには依然として不足している。
大きな動きによる複雑な変形や閉塞は、ビデオフレーム補間において非常に難しい問題となる。
本稿では,ビデオフレーム補間における大きな動きに対処する,単純で効果的なH-VFIを提案する。
H-VFIは階層型ビデオ補間変換器(HVIT)に寄与し、複数のスケールで粗大な戦略で変形可能なカーネルを学習する。
次に、学習可能な変形可能なカーネルを用いて入力フレームを畳み込み、補間フレームを予測する。
最小のスケールから始めて、H-VFIは、以前の予測されたカーネル、中間補間結果、トランスフォーマーからの階層的特徴に基づいて、変形可能なカーネルを逐次更新する。
最終的な出力を洗練するためのバイアスとマスクは、補間結果に基づいてトランスフォーマーブロックによって予測される。
このような漸進近似の利点は、大きな動きフレーム補間問題はいくつかの比較的単純なサブタスクに分解できるため、最終的な結果において非常に正確な予測が可能になることである。
もう1つの注目すべき貢献は、大規模な高品質なデータセットであるyoutube200kで、高解像度で高いフレームレートでキャプチャされた、さまざまなシナリオを描写したビデオを含んでいる。
複数のフレーム補間ベンチマークに関する広範囲な実験は、h-vfiが既存の最先端の手法、特に大きな動きの動画よりも優れていることを検証している。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Video Frame Interpolation with Flow Transformer [31.371987879960287]
ビデオフレームは畳み込みニューラルネットワークの開発で活発に研究されている。
本稿では,映像フレーム補間フロー変換器を提案する。
本フレームワークは, フレームを高い動きで補間するのに適しており, 複雑度は十分低い。
論文 参考訳(メタデータ) (2023-07-30T06:44:37Z) - E-VFIA : Event-Based Video Frame Interpolation with Attention [8.93294761619288]
軽量カーネルベース手法として,注目度の高いイベントベースビデオフレーム(E-VFIA)を提案する。
E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。
提案手法は、時間分解能の高いイベントを表現し、イベントベース情報をよりよくエンコードするためにマルチヘッド自己保持機構を使用する。
論文 参考訳(メタデータ) (2022-09-19T21:40:32Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation [46.02120172459727]
本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
論文 参考訳(メタデータ) (2022-03-19T10:37:06Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。