論文の概要: Non-linear Motion Estimation for Video Frame Interpolation using
Space-time Convolutions
- arxiv url: http://arxiv.org/abs/2201.11407v1
- Date: Thu, 27 Jan 2022 09:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 21:53:55.909218
- Title: Non-linear Motion Estimation for Video Frame Interpolation using
Space-time Convolutions
- Title(参考訳): 時空畳み込みを用いたビデオフレーム補間の非線形運動推定
- Authors: Saikat Dutta, Arulkumar Subramaniam, Anurag Mittal
- Abstract要約: ビデオフレームは、ビデオ内の2つの連続するフレーム間で1つまたは複数のフレームを合成することを目的としている。
いくつかの古い研究は、ビデオフレーム間のピクセルごとの線形運動を仮定することでこの問題に対処した。
本稿では,使用すべき動作モデルを適応的に選択可能な時空間畳み込みネットワークを用いて,画素あたりの動きを近似することを提案する。
- 参考スコア(独自算出の注目度): 18.47978862083129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video frame interpolation aims to synthesize one or multiple frames between
two consecutive frames in a video. It has a wide range of applications
including slow-motion video generation, frame-rate up-scaling and developing
video codecs. Some older works tackled this problem by assuming per-pixel
linear motion between video frames. However, objects often follow a non-linear
motion pattern in the real domain and some recent methods attempt to model
per-pixel motion by non-linear models (e.g., quadratic). A quadratic model can
also be inaccurate, especially in the case of motion discontinuities over time
(i.e. sudden jerks) and occlusions, where some of the flow information may be
invalid or inaccurate.
In our paper, we propose to approximate the per-pixel motion using a
space-time convolution network that is able to adaptively select the motion
model to be used. Specifically, we are able to softly switch between a linear
and a quadratic model. Towards this end, we use an end-to-end 3D CNN
encoder-decoder architecture over bidirectional optical flows and occlusion
maps to estimate the non-linear motion model of each pixel. Further, a motion
refinement module is employed to refine the non-linear motion and the
interpolated frames are estimated by a simple warping of the neighboring frames
with the estimated per-pixel motion. Through a set of comprehensive
experiments, we validate the effectiveness of our model and show that our
method outperforms state-of-the-art algorithms on four datasets (Vimeo, DAVIS,
HD and GoPro).
- Abstract(参考訳): ビデオフレーム補間は、ビデオ内の2つの連続するフレーム間で1つまたは複数のフレームを合成することを目的としている。
スローモーションビデオ生成、フレームレートアップスケーリング、ビデオコーデックの開発など、幅広いアプリケーションがある。
いくつかの古い作品では、ビデオフレーム間のピクセル単位の線形動きを仮定することでこの問題に対処した。
しかし、オブジェクトはしばしば実領域の非線形運動パターンに従い、最近の手法では非線形モデル(例えば二次)によってピクセル単位の動きをモデル化しようとする。
二次モデルは不正確な場合もあり、特に時間的不連続(すなわち突然の不連続)や閉塞の場合、フロー情報のいくつかが無効または不正確な場合である。
本稿では,使用中の動作モデルを適応的に選択できる時空畳み込みネットワークを用いて,画素単位の動きを近似する手法を提案する。
具体的には、線形モデルと二次モデルとをソフトに切り替えることができる。
この目的に向けて,双方向光流とオクルージョンマップ上のエンドツーエンド3次元cnnエンコーダ・デコーダアーキテクチャを用いて,各画素の非線形運動モデルの推定を行う。
さらに、非直線運動を洗練させるために動き改善モジュールを用い、その補間フレームを、画素当たりの運動を推定した隣接するフレームの簡単なワープによって推定する。
一連の総合実験を通して,本手法の有効性を検証し,4つのデータセット(Vimeo, DAVIS, HD, GoPro)で最先端のアルゴリズムより優れていることを示す。
関連論文リスト
- VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - Recurrent Video Deblurring with Blur-Invariant Motion Estimation and
Pixel Volumes [14.384467317051831]
本稿では,複数のビデオフレームから情報を効果的に集約することで,映像をブルーリングする2つの新しい手法を提案する。
まず、ぼやけたフレーム間の動き推定精度を向上させるために、ぼやけた不変な動き推定学習を提案する。
第二に、動き補正のために、推定した動きを歪ませてフレームを整列する代わりに、被写体がシャープな画素を含む画素体積を用いて、動き推定誤差を解消する。
論文 参考訳(メタデータ) (2021-08-23T07:36:49Z) - Affine-modeled video extraction from a single motion blurred image [3.0080996413230667]
動き鈍化画像は、露光時間上の複数のシャープフレームの時間平均です。
本研究では,アフィンモーションモデリングを用いた一般化ビデオ抽出手法について報告する。
公開データセットと実際のキャプチャデータの両方の実験は、報告されたテクニックの最先端のパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-08T13:59:14Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。