論文の概要: Spatio-Temporal Multi-Flow Network for Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2111.15483v1
- Date: Tue, 30 Nov 2021 15:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 16:23:25.335242
- Title: Spatio-Temporal Multi-Flow Network for Video Frame Interpolation
- Title(参考訳): ビデオフレーム補間のための時空間マルチフローネットワーク
- Authors: Duolikun Danier, Fan Zhang, David Bull
- Abstract要約: ビデオフレーム(VFI)は、コンピュータビジョン、ポストプロダクション、ビデオエンコーディングなど、非常に活発な研究トピックである。
本稿では,時空間マルチフローアーキテクチャに基づく新しい深層学習型VFI手法ST-MFNetを提案する。
- 参考スコア(独自算出の注目度): 3.6053802212032995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video frame interpolation (VFI) is currently a very active research topic,
with applications spanning computer vision, post production and video encoding.
VFI can be extremely challenging, particularly in sequences containing large
motions, occlusions or dynamic textures, where existing approaches fail to
offer perceptually robust interpolation performance. In this context, we
present a novel deep learning based VFI method, ST-MFNet, based on a
Spatio-Temporal Multi-Flow architecture. ST-MFNet employs a new multi-scale
multi-flow predictor to estimate many-to-one intermediate flows, which are
combined with conventional one-to-one optical flows to capture both large and
complex motions. In order to enhance interpolation performance for various
textures, a 3D CNN is also employed to model the content dynamics over an
extended temporal window. Moreover, ST-MFNet has been trained within an ST-GAN
framework, which was originally developed for texture synthesis, with the aim
of further improving perceptual interpolation quality. Our approach has been
comprehensively evaluated -- compared with fourteen state-of-the-art VFI
algorithms -- clearly demonstrating that ST-MFNet consistently outperforms
these benchmarks on varied and representative test datasets, with significant
gains up to 1.09dB in PSNR for cases including large motions and dynamic
textures. Project page: https://danielism97.github.io/ST-MFNet.
- Abstract(参考訳): ビデオフレーム補間(VFI)は現在、コンピュータビジョン、ポストプロダクション、ビデオエンコーディングなど、非常に活発な研究トピックである。
VFIは、特に大きな動き、閉塞、動的テクスチャを含むシーケンスにおいて、既存のアプローチが知覚的に堅牢な補間性能を提供していない場合、非常に困難である。
本稿では,時空間マルチフローアーキテクチャに基づく新しい深層学習ベースのVFI手法ST-MFNetを提案する。
ST-MFNetは、多対一の中間フローを推定するために、新しいマルチスケールのマルチフロー予測器を採用している。
各種テクスチャの補間性能を向上させるため,拡張時間窓上でのコンテンツダイナミクスのモデル化にも3D CNNが用いられている。
さらにST-MFNetは、もともとテクスチャ合成のために開発されたST-GANフレームワークで訓練されており、知覚補間品質をさらに向上することを目的としている。
我々のアプローチは、14の最先端VFIアルゴリズムと比較して、包括的に評価され、ST-MFNetが様々な、代表的なテストデータセットでこれらのベンチマークを一貫して上回っており、大きな動きや動的テクスチャを含むPSNRでは1.09dBまで大幅に向上していることを示す。
プロジェクトページ: https://danielism97.github.io/ST-MFNet
関連論文リスト
- Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - A Multi-In-Single-Out Network for Video Frame Interpolation without
Optical Flow [14.877766449009119]
深層学習に基づくビデオフレーム (VFI) 法は、2つの入力フレーム間の動きを推定することに集中している。
動作ベクトル推定に依存しないマルチインシングルアウト(MISO)に基づくVFI法を提案する。
我々はMISO-VFIがビデオフレーム内のベクトル時間をよりよくキャプチャできる新しい動き知覚損失を導入した。
論文 参考訳(メタデータ) (2023-11-20T08:29:55Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z) - Enhancing Deformable Convolution based Video Frame Interpolation with
Coarse-to-fine 3D CNN [4.151439675744056]
本稿では,3次元CNNの微細化とマルチフロー予測の高速化を目的とした,変形可能な畳み込み型ビデオフレーム(VFI)を提案する。
その結果,他の最先端VFI法よりも優れた性能を示す提案手法の有効性が明らかとなった。
論文 参考訳(メタデータ) (2022-02-15T21:20:18Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。