論文の概要: Enhancing Deformable Convolution based Video Frame Interpolation with
Coarse-to-fine 3D CNN
- arxiv url: http://arxiv.org/abs/2202.07731v1
- Date: Tue, 15 Feb 2022 21:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 15:59:25.119195
- Title: Enhancing Deformable Convolution based Video Frame Interpolation with
Coarse-to-fine 3D CNN
- Title(参考訳): 粗い3次元CNNによる変形可能な畳み込みに基づくビデオフレーム補間
- Authors: Duolikun Danier, Fan Zhang and David Bull
- Abstract要約: 本稿では,3次元CNNの微細化とマルチフロー予測の高速化を目的とした,変形可能な畳み込み型ビデオフレーム(VFI)を提案する。
その結果,他の最先端VFI法よりも優れた性能を示す提案手法の有効性が明らかとなった。
- 参考スコア(独自算出の注目度): 4.151439675744056
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a new deformable convolution-based video frame
interpolation (VFI) method, using a coarse to fine 3D CNN to enhance the
multi-flow prediction. This model first extracts spatio-temporal features at
multiple scales using a 3D CNN, and estimates multi-flows using these features
in a coarse-to-fine manner. The estimated multi-flows are then used to warp the
original input frames as well as context maps, and the warped results are fused
by a synthesis network to produce the final output. This VFI approach has been
fully evaluated against 12 state-of-the-art VFI methods on three commonly used
test databases. The results evidently show the effectiveness of the proposed
method, which offers superior interpolation performance over other state of the
art algorithms, with PSNR gains up to 0.19dB.
- Abstract(参考訳): 本稿では,粗く微細な3次元cnnを用いて,変形可能な畳み込み型ビデオフレーム補間(vfi)法を提案する。
このモデルはまず3次元CNNを用いて複数スケールの時空間的特徴を抽出し,これらの特徴を粗い方法で推定する。
次に、推定されたマルチフローを用いて、元の入力フレームとコンテキストマップをワープし、ワープした結果を合成ネットワークで融合して最終的な出力を生成する。
このVFIアプローチは、一般的に使用されている3つのテストデータベース上の12の最先端VFI手法に対して完全に評価されている。
その結果,PSNRは0.19dBまで向上し,他の手法よりも高い補間性能を実現する手法の有効性が明らかとなった。
関連論文リスト
- PolyDiff: Generating 3D Polygonal Meshes with Diffusion Models [15.846449180313778]
PolyDiffは、現実的で多様な3Dポリゴンメッシュを直接生成できる最初の拡散ベースのアプローチである。
我々のモデルは、下流3Dに統合可能な高品質な3D多角形メッシュを生成することができる。
論文 参考訳(メタデータ) (2023-12-18T18:19:26Z) - Deepfake Detection: Leveraging the Power of 2D and 3D CNN Ensembles [0.0]
本研究は,映像コンテンツの検証に革新的なアプローチを提案する。
この手法は高度な2次元および3次元畳み込みニューラルネットワークをブレンドする。
実験による検証は、この戦略の有効性を強調し、ディープフェイクの発生に対処する可能性を示している。
論文 参考訳(メタデータ) (2023-10-25T06:00:37Z) - H-VFI: Hierarchical Frame Interpolation for Videos with Large Motions [63.23985601478339]
本稿では,ビデオフレームにおける大きな動きに対処する,単純で効果的なH-VFI法を提案する。
H-VFIは、粗大な戦略で変形可能なカーネルを学習するために階層型ビデオ変換器に寄与する。
このようなプログレッシブ近似の利点は、大きなモーションフレーム問題を比較的単純ないくつかのサブタスクに予測できることである。
論文 参考訳(メタデータ) (2022-11-21T09:49:23Z) - Positional Encoding Augmented GAN for the Assessment of Wind Flow for
Pedestrian Comfort in Urban Areas [0.41998444721319217]
本研究は,CFDを用いた3次元フローフィールドの計算から,建物のフットプリント上の2次元画像から画像への変換に基づく問題まで,歩行者の高さレベルでのフローフィールドの予測に至るまでの課題を言い換える。
本稿では,画像から画像への変換タスクの最先端を表現したPix2PixやCycleGANなど,GAN(Generative Adversarial Network)の利用について検討する。
論文 参考訳(メタデータ) (2021-12-15T19:37:11Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Spatio-Temporal Multi-Flow Network for Video Frame Interpolation [3.6053802212032995]
ビデオフレーム(VFI)は、コンピュータビジョン、ポストプロダクション、ビデオエンコーディングなど、非常に活発な研究トピックである。
本稿では,時空間マルチフローアーキテクチャに基づく新しい深層学習型VFI手法ST-MFNetを提案する。
論文 参考訳(メタデータ) (2021-11-30T15:18:46Z) - A Novel Patch Convolutional Neural Network for View-based 3D Model
Retrieval [36.12906920608775]
ビューベース3次元モデル検索のための新しいパッチ畳み込みニューラルネットワーク(PCNN)を提案する。
提案したPCNNは, それぞれ93.67%, 96.23%と, 最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-09-25T07:18:23Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Cascaded Deep Video Deblurring Using Temporal Sharpness Prior [88.98348546566675]
提案アルゴリズムは主に,中間潜水フレームと潜水フレームの復元ステップから光フローを推定する。
まず、中間潜伏フレームから光フローを推定し、推定した光フローに基づいて潜伏フレームを復元する深部CNNモデルを開発する。
ビデオデブロアリングのドメイン知識を探索することで、深層CNNモデルをよりコンパクトで効率的なものにすることができることを示す。
論文 参考訳(メタデータ) (2020-04-06T09:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。