論文の概要: Multiple Video Frame Interpolation via Enhanced Deformable Separable
Convolution
- arxiv url: http://arxiv.org/abs/2006.08070v2
- Date: Mon, 25 Jan 2021 09:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 04:53:50.278797
- Title: Multiple Video Frame Interpolation via Enhanced Deformable Separable
Convolution
- Title(参考訳): 変形性分離性畳み込みによる複数フレーム補間
- Authors: Xianhang Cheng and Zhenzhong Chen
- Abstract要約: カーネルベースの手法は、ソースフレームと空間適応型ローカルカーネルを囲む単一の畳み込みプロセスでピクセルを予測する。
本稿では,適応カーネルだけでなく,オフセット,マスク,バイアスを推定するための拡張変形性分離畳み込み(EDSC)を提案する。
提案手法は,幅広いデータセットを対象とした最先端の手法に対して良好に動作することを示す。
- 参考スコア(独自算出の注目度): 67.83074893311218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating non-existing frames from a consecutive video sequence has been an
interesting and challenging problem in the video processing field. Typical
kernel-based interpolation methods predict pixels with a single convolution
process that convolves source frames with spatially adaptive local kernels,
which circumvents the time-consuming, explicit motion estimation in the form of
optical flow. However, when scene motion is larger than the pre-defined kernel
size, these methods are prone to yield less plausible results. In addition,
they cannot directly generate a frame at an arbitrary temporal position because
the learned kernels are tied to the midpoint in time between the input frames.
In this paper, we try to solve these problems and propose a novel non-flow
kernel-based approach that we refer to as enhanced deformable separable
convolution (EDSC) to estimate not only adaptive kernels, but also offsets,
masks and biases to make the network obtain information from non-local
neighborhood. During the learning process, different intermediate time step can
be involved as a control variable by means of an extension of coord-conv trick,
allowing the estimated components to vary with different input temporal
information. This makes our method capable to produce multiple in-between
frames. Furthermore, we investigate the relationships between our method and
other typical kernel- and flow-based methods. Experimental results show that
our method performs favorably against the state-of-the-art methods across a
broad range of datasets. Code will be publicly available on URL:
\url{https://github.com/Xianhang/EDSC-pytorch}.
- Abstract(参考訳): 連続するビデオシーケンスから既存のフレームを生成することは、ビデオ処理分野において興味深い、難しい問題である。
典型的なカーネルベースの補間法は、光フローの形で時間を要する明示的な動き推定を回避し、空間適応的なローカルカーネルとソースフレームを囲む単一の畳み込みプロセスでピクセルを予測する。
しかし、シーンの動作が予め定義されたカーネルサイズよりも大きい場合、これらのメソッドは、より妥当な結果をもたらす可能性がある。
さらに、学習したカーネルが入力フレーム間の時間中点に結び付けられているため、任意の時間位置にフレームを直接生成することはできない。
本稿では,これらの問題を解決するために,適応型カーネルだけでなくオフセット,マスク,バイアスを推定し,ネットワークが非局所的な近傍から情報を得るための新しい非流れ型カーネルベース手法を提案する。
学習過程では、コオード・コンブトリックの拡張により、異なる中間時間ステップを制御変数として関与することができ、推定されたコンポーネントを異なる入力時間情報で変更することができる。
これにより、複数のフレームを相互に生成できる。
さらに,本手法と他のカーネルおよびフローベース手法との関係について検討する。
実験結果から,本手法は幅広いデータセットを対象とした最先端手法に対して良好に機能することが示された。
コードはURLで公開される。 \url{https://github.com/Xianhang/EDSC-pytorch}。
関連論文リスト
- Meta-Interpolation: Time-Arbitrary Frame Interpolation via Dual
Meta-Learning [65.85319901760478]
我々はメタ学習の助けを借りて、適応的に生成された畳み込みカーネルで異なる時間ステップを統一的に処理することを検討する。
我々は、コンテキスト情報と光フローのガイダンスを用いて、中間フレームを合成するデュアルメタ学習フレームフレームワークを開発した。
論文 参考訳(メタデータ) (2022-07-27T17:36:23Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Video Frame Interpolation Based on Deformable Kernel Region [18.55904569126297]
ビデオの変形可能な畳み込みを提案し、カーネル領域の固定グリッド制限を破ることができる。
提案モデルの優れた性能を示すために, 4つのデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-04-25T02:03:04Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - Video Frame Interpolation via Generalized Deformable Convolution [18.357839820102683]
ビデオフレームは、空間的および時間的コンピテンシーを維持しながら、近くのソースフレームから中間フレームを合成することを目的としている。
既存のディープラーニングベースのビデオフレーム手法は、フローベースの方法とカーネルベースの方法の2つのカテゴリに分けられる。
データ駆動方式で動きを効果的に学習し、時空のサンプリングポイントを自由に選択できる汎用変形型畳み込み機構が提案されている。
論文 参考訳(メタデータ) (2020-08-24T20:00:39Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。