論文の概要: Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation
- arxiv url: http://arxiv.org/abs/2203.10291v1
- Date: Sat, 19 Mar 2022 10:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 21:19:00.296506
- Title: Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation
- Title(参考訳): 高品質ビデオフレーム補間のための動きのあいまいさとアライメントの探索
- Authors: Kun Zhou, Wenbo Li, Xiaoguang Han, Jiangbo Lu
- Abstract要約: 本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
- 参考スコア(独自算出の注目度): 46.02120172459727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For video frame interpolation (VFI), existing deep-learning-based approaches
strongly rely on the ground-truth (GT) intermediate frames, which sometimes
ignore the non-unique nature of motion judging from the given adjacent frames.
As a result, these methods tend to produce averaged solutions that are not
clear enough. To alleviate this issue, we propose to relax the requirement of
reconstructing an intermediate frame as close to the GT as possible. Towards
this end, we develop a texture consistency loss (TCL) upon the assumption that
the interpolated content should maintain similar structures with their
counterparts in the given frames. Predictions satisfying this constraint are
encouraged, though they may differ from the pre-defined GT. Without the bells
and whistles, our plug-and-play TCL is capable of improving the performance of
existing VFI frameworks. On the other hand, previous methods usually adopt the
cost volume or correlation map to achieve more accurate image/feature warping.
However, the O(N^2) ({N refers to the pixel count}) computational complexity
makes it infeasible for high-resolution cases. In this work, we design a
simple, efficient (O(N)) yet powerful cross-scale pyramid alignment (CSPA)
module, where multi-scale information is highly exploited. Extensive
experiments justify the efficiency and effectiveness of the proposed strategy.
- Abstract(参考訳): ビデオフレーム補間(vfi)では、既存のディープラーニングベースのアプローチは、接地(gt)中間フレームに強く依存しており、与えられた隣接フレームから判断される不自然な動きの性質を無視することがある。
その結果、これらの手法は十分に明確でない平均解を生成する傾向にある。
この問題を軽減するため、GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
この目的のために、補間されたコンテンツは、与えられたフレーム内の他のコンテンツと類似した構造を維持するべきであるという仮定に基づいて、テクスチャ整合損失(TCL)を開発する。
この制約を満たす予測は推奨されるが、事前に定義されたGTとは異なる場合もある。
ベルとホイッスルがなければ、既存のVFIフレームワークの性能を向上させることができる。
一方、従来の手法ではコストボリュームや相関マップを採用し、より正確な画像や特徴のウォーピングを実現する。
しかし、O(N^2) ({N はピクセル数を意味する) の計算複雑性は、高分解能ケースでは実現不可能である。
本研究では,マルチスケール情報を高度に活用する,単純で効率的な(o(n))かつ強力なクロススケールピラミッドアライメント(cspa)モジュールを設計した。
広範な実験は,提案手法の効率性と有効性を正当化する。
関連論文リスト
- Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - H-VFI: Hierarchical Frame Interpolation for Videos with Large Motions [63.23985601478339]
本稿では,ビデオフレームにおける大きな動きに対処する,単純で効果的なH-VFI法を提案する。
H-VFIは、粗大な戦略で変形可能なカーネルを学習するために階層型ビデオ変換器に寄与する。
このようなプログレッシブ近似の利点は、大きなモーションフレーム問題を比較的単純ないくつかのサブタスクに予測できることである。
論文 参考訳(メタデータ) (2022-11-21T09:49:23Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - IFRNet: Intermediate Feature Refine Network for Efficient Frame
Interpolation [44.04110765492441]
我々は高速中間フレーム合成のための効率的なエンコーダデコーダベースネットワーク IFRNet を考案した。
様々なベンチマークの実験では、提案手法の優れた性能と高速な推論速度が示されている。
論文 参考訳(メタデータ) (2022-05-29T10:18:18Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - Temporal Feature Alignment and Mutual Information Maximization for
Video-Based Human Pose Estimation [38.571715193347366]
マルチフレーム人間のポーズ推定のための新しい階層的アライメントフレームワークを提案する。
ベンチマークデータセットのPoseTrack 2017では、マルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track 2018では最先端のパフォーマンスを得ています。
論文 参考訳(メタデータ) (2022-03-29T04:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。