論文の概要: Exploring Discontinuity for Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2202.07291v5
- Date: Thu, 23 Mar 2023 04:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 18:57:33.845525
- Title: Exploring Discontinuity for Video Frame Interpolation
- Title(参考訳): ビデオフレーム補間の不連続性の検討
- Authors: Sangjin Lee, Hyeongmin Lee, Chajin Shin, Hanbin Son, Sangyoun Lee
- Abstract要約: 本稿では,既存のディープラーニングベースのVFIアーキテクチャを不連続動作に対して堅牢にするための3つの手法を提案する。
まず、フィギュア・テキスト・ミキシング(FTM)と呼ばれる新しいデータ拡張戦略によって、モデルが不連続な動きを学習できるようにする。
第二に,連続した動きと不連続な動きの領域を密に区別する不連続写像 (D-map) と呼ばれる写像を予測する,単純だが効果的なモジュールを提案する。
- 参考スコア(独自算出の注目度): 7.061238509514182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video frame interpolation (VFI) is the task that synthesizes the intermediate
frame given two consecutive frames. Most of the previous studies have focused
on appropriate frame warping operations and refinement modules for the warped
frames. These studies have been conducted on natural videos containing only
continuous motions. However, many practical videos contain various unnatural
objects with discontinuous motions such as logos, user interfaces and
subtitles. We propose three techniques to make the existing deep learning-based
VFI architectures robust to these elements. First is a novel data augmentation
strategy called figure-text mixing (FTM) which can make the models learn
discontinuous motions during training stage without any extra dataset. Second,
we propose a simple but effective module that predicts a map called
discontinuity map (D-map), which densely distinguishes between areas of
continuous and discontinuous motions. Lastly, we propose loss functions to give
supervisions of the discontinuous motion areas which can be applied along with
FTM and D-map. We additionally collect a special test benchmark called
Graphical Discontinuous Motion (GDM) dataset consisting of some mobile games
and chatting videos. Applied to the various state-of-the-art VFI networks, our
method significantly improves the interpolation qualities on the videos from
not only GDM dataset, but also the existing benchmarks containing only
continuous motions such as Vimeo90K, UCF101, and DAVIS.
- Abstract(参考訳): ビデオフレーム補間(VFI)は、2つの連続するフレームが与えられた中間フレームを合成するタスクである。
以前の研究の多くは、乱れたフレームに対する適切なフレームワープ操作と改良モジュールに焦点を当てていた。
これらの研究は、連続運動のみを含む自然映像で行われている。
しかし、多くの実用ビデオには、ロゴ、ユーザーインターフェイス、字幕などの不連続な動きを持つ様々な不自然なオブジェクトが含まれている。
これらの要素に対して,既存のディープラーニングベースのVFIアーキテクチャを堅牢化するための3つの手法を提案する。
1つ目は、フィギュア・テキスト・ミキシング(FTM)と呼ばれる新しいデータ拡張戦略で、モデルがトレーニング段階で余分なデータセットなしで不連続な動きを学習できるようにする。
次に,不連続写像 (D-map) と呼ばれる,連続した動きと不連続な動きの領域を密に区別した地図を予測する,単純だが効果的なモジュールを提案する。
最後に,ftm や d-map とともに適用可能な不連続運動領域の監督を行うための損失関数を提案する。
さらに,モバイルゲームとチャットビデオからなるgdm(graphical discontinuous motion)データセットという,特別なテストベンチマークも収集した。
本手法は,GDMデータセットだけでなく,Vimeo90K,UCF101,DAVISなどの連続動作のみを含む既存のベンチマークから,映像の補間品質を大幅に向上させる。
関連論文リスト
- Unfolding Videos Dynamics via Taylor Expansion [5.723852805622308]
ビデオの自己教師型動的学習戦略について紹介する: インスタンス識別のためのビデオ時間差分法(ViDiDi)
ViDiDiは、フレームシーケンスの時間的デリバティブのさまざまな順序を通して、ビデオの異なる側面を観察する。
ViDiDiは、ビデオとその時間微分を一貫した埋め込みにエンコードする単一のニューラルネットワークを学習する。
論文 参考訳(メタデータ) (2024-09-04T01:41:09Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。