論文の概要: Video Frame Interpolation via Structure-Motion based Iterative Fusion
- arxiv url: http://arxiv.org/abs/2105.05353v1
- Date: Tue, 11 May 2021 22:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:24:59.498497
- Title: Video Frame Interpolation via Structure-Motion based Iterative Fusion
- Title(参考訳): 構造運動に基づく反復融合による映像フレーム補間
- Authors: Xi Li, Meng Cao, Yingying Tang, Scott Johnston, Zhendong Hong, Huimin
Ma, Jiulong Shan
- Abstract要約: 映像フレーム補間のための構造運動に基づく反復融合法を提案する。
観客が前景や背景の物体に対して異なる視覚的嗜好を持つという観察に触発されて,私たちは初めて,映像フレーム補間作業の評価プロセスにサリエンシマスクを使うことを提案する。
- 参考スコア(独自算出の注目度): 19.499969588931414
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video Frame Interpolation synthesizes non-existent images between adjacent
frames, with the aim of providing a smooth and consistent visual experience.
Two approaches for solving this challenging task are optical flow based and
kernel-based methods. In existing works, optical flow based methods can provide
accurate point-to-point motion description, however, they lack constraints on
object structure. On the contrary, kernel-based methods focus on structural
alignment, which relies on semantic and apparent features, but tends to blur
results. Based on these observations, we propose a structure-motion based
iterative fusion method. The framework is an end-to-end learnable structure
with two stages. First, interpolated frames are synthesized by structure-based
and motion-based learning branches respectively, then, an iterative refinement
module is established via spatial and temporal feature integration. Inspired by
the observation that audiences have different visual preferences on foreground
and background objects, we for the first time propose to use saliency masks in
the evaluation processes of the task of video frame interpolation. Experimental
results on three typical benchmarks show that the proposed method achieves
superior performance on all evaluation metrics over the state-of-the-art
methods, even when our models are trained with only one-tenth of the data other
methods use.
- Abstract(参考訳): ビデオフレーム補間は、滑らかで一貫した視覚体験を提供することを目的として、隣接するフレーム間の非存在画像を合成する。
この課題を解決する2つのアプローチは、オプティカルフローベースとカーネルベースの方法である。
既存の研究において、光学フローに基づく手法は、正確な点間運動記述を提供することができるが、それらはオブジェクト構造に制約を欠いている。
逆にカーネルベースの手法は、意味的特徴と明らかな特徴に依存する構造的アライメントに重点を置いている。
これらの観測に基づいて,構造運動に基づく反復融合法を提案する。
フレームワークはエンドツーエンドの学習可能な構造で、2つのステージがある。
まず、補間フレームをそれぞれ構造ベースおよび運動ベース学習枝で合成し、空間的特徴統合と時間的特徴統合により反復的洗練モジュールを確立する。
観客が前景や背景の物体に対して異なる視覚的嗜好を持つという観察に触発されて,私たちは初めて,映像フレーム補間作業の評価プロセスにサリエンシマスクを使うことを提案する。
3つの典型的なベンチマークにおける実験結果から,提案手法は他の手法の10分の1のデータしか使用していないモデルでも,最先端手法よりも評価指標において優れた性能が得られることがわかった。
関連論文リスト
- Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Meta-Interpolation: Time-Arbitrary Frame Interpolation via Dual
Meta-Learning [65.85319901760478]
我々はメタ学習の助けを借りて、適応的に生成された畳み込みカーネルで異なる時間ステップを統一的に処理することを検討する。
我々は、コンテキスト情報と光フローのガイダンスを用いて、中間フレームを合成するデュアルメタ学習フレームフレームワークを開発した。
論文 参考訳(メタデータ) (2022-07-27T17:36:23Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - EA-Net: Edge-Aware Network for Flow-based Video Frame Interpolation [101.75999290175412]
補間フレーム内のエッジを保存することにより,画像のぼかしを低減し,オブジェクトの明確な形状を得る。
提案するエッジアウェアネットワーク(eanet)は、エッジ情報をフレームタスクに統合する。
フローマップの推定において,フレームエッジを強調する3つのエッジアウェア機構が開発されている。
論文 参考訳(メタデータ) (2021-05-17T08:44:34Z) - Video Frame Interpolation via Generalized Deformable Convolution [18.357839820102683]
ビデオフレームは、空間的および時間的コンピテンシーを維持しながら、近くのソースフレームから中間フレームを合成することを目的としている。
既存のディープラーニングベースのビデオフレーム手法は、フローベースの方法とカーネルベースの方法の2つのカテゴリに分けられる。
データ駆動方式で動きを効果的に学習し、時空のサンプリングポイントを自由に選択できる汎用変形型畳み込み機構が提案されている。
論文 参考訳(メタデータ) (2020-08-24T20:00:39Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。