論文の概要: PDWN: Pyramid Deformable Warping Network for Video Interpolation
- arxiv url: http://arxiv.org/abs/2104.01517v1
- Date: Sun, 4 Apr 2021 02:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:37:51.721660
- Title: PDWN: Pyramid Deformable Warping Network for Video Interpolation
- Title(参考訳): PDWN:動画補間用ピラミッド変形型ワープネットワーク
- Authors: Zhiqi Chen, Ran Wang, Haojie Liu and Yao Wang
- Abstract要約: Pyramid Deformable Warping Network (PDWN) と呼ばれる軽量かつ効果的なモデルを提案する。
PDWNはピラミッド構造を使用して、既知のフレームに関して未知の中間フレームのDConvオフセットを生成します。
提案手法は,複数のデータセットの最先端モデルと比較して精度が向上する。
- 参考スコア(独自算出の注目度): 11.62213584807003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video interpolation aims to generate a non-existent intermediate frame given
the past and future frames. Many state-of-the-art methods achieve promising
results by estimating the optical flow between the known frames and then
generating the backward flows between the middle frame and the known frames.
However, these methods usually suffer from the inaccuracy of estimated optical
flows and require additional models or information to compensate for flow
estimation errors. Following the recent development in using deformable
convolution (DConv) for video interpolation, we propose a light but effective
model, called Pyramid Deformable Warping Network (PDWN). PDWN uses a pyramid
structure to generate DConv offsets of the unknown middle frame with respect to
the known frames through coarse-to-fine successive refinements. Cost volumes
between warped features are calculated at every pyramid level to help the
offset inference. At the finest scale, the two warped frames are adaptively
blended to generate the middle frame. Lastly, a context enhancement network
further enhances the contextual detail of the final output. Ablation studies
demonstrate the effectiveness of the coarse-to-fine offset refinement, cost
volumes, and DConv. Our method achieves better or on-par accuracy compared to
state-of-the-art models on multiple datasets while the number of model
parameters and the inference time are substantially less than previous models.
Moreover, we present an extension of the proposed framework to use four input
frames, which can achieve significant improvement over using only two input
frames, with only a slight increase in the model size and inference time.
- Abstract(参考訳): ビデオ補間は、過去と将来のフレームが与えられた既存の中間フレームを生成することを目的としている。
多くの最先端手法は、既知のフレーム間の光の流れを推定し、ミドルフレームと既知のフレーム間の後方の流れを生成することによって、有望な結果を達成する。
しかしながら、これらの手法は通常、推定された光フローの不正確さに悩まされ、フロー推定誤差を補うために追加のモデルや情報を必要とする。
近年,映像補間に変形性畳み込み(dconv)を用いた場合,ピラミッド変形性ワーピングネットワーク(pdwn)と呼ばれる軽量だが効果的なモデルが提案されている。
pdwnはピラミッド構造を使用して、未知の中間フレームの既知のフレームに対するdconvオフセットを生成する。
歪んだ特徴間のコストボリュームは、オフセット推論を支援するために、ピラミッドレベルで計算される。
最も細かいスケールでは、2つの歪んだフレームを適応的にブレンドして中間フレームを生成する。
最後に、コンテキスト拡張ネットワークは、最終出力のコンテキスト詳細をさらに強化する。
アブレーション研究は、粗大なオフセット改良、コストボリューム、DConvの有効性を示す。
提案手法は,従来モデルに比べてモデルパラメータ数や推論時間は大幅に少ないが,複数のデータセットにおける最先端モデルと比較して精度が向上する。
さらに,提案手法を拡張して4つの入力フレームを使用する場合,モデルサイズと推論時間をわずかに増加させるだけで,2つの入力フレームを使用するよりも大幅に改善できることを示す。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - OCAI: Improving Optical Flow Estimation by Occlusion and Consistency Aware Interpolation [55.676358801492114]
本稿では,中間映像フレームと光フローを同時に生成することで,フレームのあいまいさを頑健に支援するOCAIを提案する。
我々は,Sintel や KITTI などの既存のベンチマークにおいて,優れた品質と光フロー精度を実証した。
論文 参考訳(メタデータ) (2024-03-26T20:23:48Z) - IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame
Interpolation with Events [14.098949778274733]
イベントカメラは、フレーム間のダイナミクスを極めて高い時間分解能で捉えるのに最適である。
IDO-VFIというイベント・アンド・フレームベースのビデオフレーム方式を提案する。
提案手法は,Vimeo90Kデータセット上での計算時間と計算労力をそれぞれ10%と17%削減しつつ,高品質な性能を維持する。
論文 参考訳(メタデータ) (2023-05-17T13:22:21Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - Enhanced Correlation Matching based Video Frame Interpolation [5.304928339627251]
拡張相関マッチングに基づくビデオフレーム補間ネットワークという新しいフレームワークを提案する。
提案手法では,光学的フロー推定のために,各ピラミッド層間のパラメータを共用する繰り返しピラミッド構造を用いる。
実験の結果,提案手法は4Kビデオデータや低解像度のベンチマークデータセット,客観的品質,主観的品質などにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-11-17T02:43:45Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - RAI-Net: Range-Adaptive LiDAR Point Cloud Frame Interpolation Network [5.225160072036824]
捕捉されたフレーム間の中間フレームを合成するLiDARポイントクラウドフレームは、多くのアプリケーションにおいて重要な問題となっている。
本稿では,CNNとの中間表現として範囲画像(RI)を利用してフレーム処理を行う,新しいLiDARポイントクラウド光フレーム法を提案する。
提案手法は,最新の映像フレーム方式よりも知覚的品質の優れたフレームを連続的に実現している。
論文 参考訳(メタデータ) (2021-06-01T13:59:08Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。