論文の概要: Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields
- arxiv url: http://arxiv.org/abs/2204.09900v1
- Date: Thu, 21 Apr 2022 06:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:55:36.499625
- Title: Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields
- Title(参考訳): 多層2.5次元運動場学習による教師なし映像補間
- Authors: Ziang Cheng, Shihao Jiang, Hongdong Li
- Abstract要約: 本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
- 参考スコア(独自算出の注目度): 75.81417944207806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The problem of video frame interpolation is to increase the temporal
resolution of a low frame-rate video, by interpolating novel frames between
existing temporally sparse frames. This paper presents a self-supervised
approach to video frame interpolation that requires only a single video. We
pose the video as a set of layers. Each layer is parameterized by two implicit
neural networks -- one for learning a static frame and the other for a
time-varying motion field corresponding to video dynamics. Together they
represent an occlusion-free subset of the scene with a pseudo-depth channel. To
model inter-layer occlusions, all layers are lifted to the 2.5D space so that
the frontal layer occludes distant layers. This is done by assigning each layer
a depth channel, which we call `pseudo-depth', whose partial order defines the
occlusion between layers. The pseudo-depths are converted to visibility values
through a fully differentiable SoftMin function so that closer layers are more
visible than layers in a distance. On the other hand, we parameterize the video
motions by solving an ordinary differentiable equation (ODE) defined on a
time-varying neural velocity field that guarantees valid motions. This implicit
neural representation learns the video as a space-time continuum, allowing
frame interpolation at any temporal resolution. We demonstrate the
effectiveness of our method on real-world datasets, where our method achieves
comparable performance to state-of-the-arts that require ground truth labels
for training.
- Abstract(参考訳): ビデオフレーム補間問題は、既存の時間的に疎いフレーム間で新しいフレームを補間することにより、低フレームレートビデオの時間分解能を高めることである。
本稿では,ビデオフレーム補間に対する自己教師型アプローチを提案する。
ビデオはレイヤーのセットとしてポーズします。
各レイヤは2つの暗黙のニューラルネットワークでパラメータ化され、ひとつは静的フレームを学習し、もうひとつはビデオダイナミクスに対応する時間変化する動き場を学習する。
それらは共に、擬似深さチャネルを持つシーンの閉塞のないサブセットを表す。
層間閉塞をモデル化するために、すべての層が2.5D空間に持ち上げられ、前面層が遠い層を閉塞する。
これは各層に深さチャネルを割り当て、それを 'pseudo-deepth' と呼び、その部分的な順序は層間の閉塞を定義する。
擬似深度は、完全に微分可能なSoftMin関数を通じて可視値に変換され、より近い層が遠くの層よりも可視になる。
一方,有効な動きを保証する時間変化型神経速度場上で定義される通常の微分可能方程式 (ode) を解いてビデオ動作のパラメータ化を行う。
この暗黙的な神経表現は、映像を時空連続体として学習し、任意の時間分解能でフレーム補間を可能にする。
本手法は,実世界のデータセットにおいて,基礎的真理ラベルを必要とする最先端技術と同等の性能が得られることを示す。
関連論文リスト
- Hierarchical Masked 3D Diffusion Model for Video Outpainting [20.738731220322176]
映像出力のためのマスク付き3次元拡散モデルを提案する。
これにより、複数のビデオクリップ推論の結果を接続するために、複数のガイドフレームを使用することができます。
また, アーティファクトの蓄積問題を緩和するために, 粗大から粗大の推論パイプラインも導入する。
論文 参考訳(メタデータ) (2023-09-05T10:52:21Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Enhanced Deep Animation Video Interpolation [47.7046169124373]
既存の学習ベースのフレームアルゴリズムは、高速な自然ビデオから連続的なフレームを抽出し、モデルを訓練する。
ナチュラルビデオと比較すると、漫画ビデオは通常、フレームレートが低い。
本稿では,ディープアニメーションビデオのトレーニングデータを自動レンダリングするAutoFIを提案する。
論文 参考訳(メタデータ) (2022-06-25T14:00:48Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。
フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。
我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文 参考訳(メタデータ) (2021-12-02T12:13:56Z) - Layered Neural Atlases for Consistent Video Editing [37.69447642502351]
本稿では,入力映像を層状2次元アトラスに分解する手法を提案する。
ビデオの各画素について,各アトラスの対応する2次元座標を推定する。
我々は、アトラスを解釈可能で意味論的に設計し、アトラス領域での簡単かつ直感的な編集を容易にする。
論文 参考訳(メタデータ) (2021-09-23T14:58:59Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z) - Across Scales & Across Dimensions: Temporal Super-Resolution using Deep
Internal Learning [11.658606722158517]
我々は、低フレームの入力ビデオから直接抽出した例に基づいて、ビデオ固有のCNNを訓練する。
提案手法は,単一ビデオシーケンス内の小さな時空間パッチの強い再帰性を利用する。
ビデオフレームの高解像度化は、そのビデオの時間分解能を高めるための強力な例を提供する。
論文 参考訳(メタデータ) (2020-03-19T15:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。