論文の概要: Enhanced Quadratic Video Interpolation
- arxiv url: http://arxiv.org/abs/2009.04642v1
- Date: Thu, 10 Sep 2020 02:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 03:35:53.699705
- Title: Enhanced Quadratic Video Interpolation
- Title(参考訳): 拡張擬似映像補間
- Authors: Yihao Liu and Liangbin Xie and Li Siyao and Wenxiu Sun and Yu Qiao and
Chao Dong
- Abstract要約: より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
- 参考スコア(独自算出の注目度): 56.54662568085176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the prosperity of digital video industry, video frame interpolation has
arisen continuous attention in computer vision community and become a new
upsurge in industry. Many learning-based methods have been proposed and
achieved progressive results. Among them, a recent algorithm named quadratic
video interpolation (QVI) achieves appealing performance. It exploits
higher-order motion information (e.g. acceleration) and successfully models the
estimation of interpolated flow. However, its produced intermediate frames
still contain some unsatisfactory ghosting, artifacts and inaccurate motion,
especially when large and complex motion occurs. In this work, we further
improve the performance of QVI from three facets and propose an enhanced
quadratic video interpolation (EQVI) model. In particular, we adopt a rectified
quadratic flow prediction (RQFP) formulation with least squares method to
estimate the motion more accurately. Complementary with image pixel-level
blending, we introduce a residual contextual synthesis network (RCSN) to employ
contextual information in high-dimensional feature space, which could help the
model handle more complicated scenes and motion patterns. Moreover, to further
boost the performance, we devise a novel multi-scale fusion network (MS-Fusion)
which can be regarded as a learnable augmentation process. The proposed EQVI
model won the first place in the AIM2020 Video Temporal Super-Resolution
Challenge.
- Abstract(参考訳): デジタルビデオ産業の繁栄に伴い、コンピュータビジョンのコミュニティではビデオフレームの補間が絶え間なく注目され、新たな産業の興隆となった。
多くの学習に基づく手法が提案され、進歩的な結果が得られた。
このうち,2次ビデオ補間(QVI)と呼ばれる最近のアルゴリズムは,魅力的な性能を発揮する。
高次運動情報(例えば加速度)を利用し、補間流れの推定をうまくモデル化する。
しかし、生成した中間フレームには、特に大きく複雑な動きが発生した場合に、満足のいくゴースト、アーティファクト、不正確な動きが含まれている。
本研究では、3つの面からQVIの性能をさらに向上させ、拡張2次ビデオ補間(EQVI)モデルを提案する。
特に、最小二乗法による修正2次流予測(RQFP)を用いて、より正確に動きを推定する。
画像ピクセルレベルのブレンディングを補完し,高次元特徴空間に文脈情報を用いる残差コンテクスト合成ネットワーク(rcsn)を導入することで,より複雑なシーンや動きパターンの処理を支援する。
さらに,さらなる性能向上のために,学習可能な拡張プロセスとみなすことができる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM2020 Video Temporal Super-Resolution Challengeで優勝した。
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Disentangled Motion Modeling for Video Frame Interpolation [40.83962594702387]
ビデオフレーム(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。
中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
論文 参考訳(メタデータ) (2024-06-25T03:50:20Z) - Decouple Content and Motion for Conditional Image-to-Video Generation [6.634105805557556]
条件付きイメージ・トゥ・ビデオ(cI2V)生成は、条件、すなわち1つの画像とテキストから始まり、信じられる新しいビデオを作成することである。
従来のcI2V生成法は、従来のRGBピクセル空間において、動きの一貫性と視覚的連続性のモデリングに制限がある。
本稿では,対象のRGB画素を空間的内容と時間的動きの2つの異なる成分に分解する手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:08:27Z) - H-VFI: Hierarchical Frame Interpolation for Videos with Large Motions [63.23985601478339]
本稿では,ビデオフレームにおける大きな動きに対処する,単純で効果的なH-VFI法を提案する。
H-VFIは、粗大な戦略で変形可能なカーネルを学習するために階層型ビデオ変換器に寄与する。
このようなプログレッシブ近似の利点は、大きなモーションフレーム問題を比較的単純ないくつかのサブタスクに予測できることである。
論文 参考訳(メタデータ) (2022-11-21T09:49:23Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [14.67994875448175]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長距離空間および時間的依存関係を効率的に捉えることができない。
グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z) - Non-linear Motion Estimation for Video Frame Interpolation using
Space-time Convolutions [18.47978862083129]
ビデオフレームは、ビデオ内の2つの連続するフレーム間で1つまたは複数のフレームを合成することを目的としている。
いくつかの古い研究は、ビデオフレーム間のピクセルごとの線形運動を仮定することでこの問題に対処した。
本稿では,使用すべき動作モデルを適応的に選択可能な時空間畳み込みネットワークを用いて,画素あたりの動きを近似することを提案する。
論文 参考訳(メタデータ) (2022-01-27T09:49:23Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。