論文の概要: Beyond Natural Motion: Exploring Discontinuity for Video Frame
Interpolation
- arxiv url: http://arxiv.org/abs/2202.07291v1
- Date: Tue, 15 Feb 2022 10:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 15:06:30.658409
- Title: Beyond Natural Motion: Exploring Discontinuity for Video Frame
Interpolation
- Title(参考訳): 自然運動を超えて:ビデオフレーム補間の不連続を探る
- Authors: Sangjin Lee, Hyeongmin Lee, Chajin Shin, Hanbin Son, Sangyoun Lee
- Abstract要約: 本稿では,2つの連続するフレーム間の遷移の概念を拡張するための3つの手法を提案する。
ひとつは,連続的かつ不連続な動作領域を分離可能な,新たなアーキテクチャです。
また,図形テキスト混合(FTM)と呼ばれる新しいデータ拡張戦略を提案し,モデルがより一般的なシナリオを学習できるようにする。
- 参考スコア(独自算出の注目度): 7.061238509514182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video interpolation is the task that synthesizes the intermediate frame given
two consecutive frames. Most of the previous studies have focused on
appropriate frame warping operations and refinement modules for the warped
frames. These studies have been conducted on natural videos having only
continuous motions. However, many practical videos contain a lot of
discontinuous motions, such as chat windows, watermarks, GUI elements, or
subtitles. We propose three techniques to expand the concept of transition
between two consecutive frames to address these issues. First is a new
architecture that can separate continuous and discontinuous motion areas. We
also propose a novel data augmentation strategy called figure-text mixing (FTM)
to make our model learn more general scenarios. Finally, we propose loss
functions to give supervisions of the discontinuous motion areas with the data
augmentation. We collected a special dataset consisting of some mobile games
and chatting videos. We show that our method significantly improves the
interpolation qualities of the videos on the special dataset. Moreover, our
model outperforms the state-of-the-art methods for natural video datasets
containing only continuous motions, such as DAVIS and UCF101.
- Abstract(参考訳): ビデオ補間は、2つの連続するフレームが与えられた中間フレームを合成するタスクである。
以前の研究の多くは、乱れたフレームに対する適切なフレームワープ操作と改良モジュールに焦点を当てていた。
これらの研究は、連続的な動きしか持たない自然ビデオで行われている。
しかし、多くの実用的なビデオには、チャットウィンドウ、ウォーターマーク、GUI要素、サブタイトルなど、多くの不連続な動きが含まれている。
これらの問題に対処するために,二つのフレーム間の遷移の概念を拡張する3つの手法を提案する。
まず、連続的および不連続的な動き領域を分離できる新しいアーキテクチャです。
また,図形テキスト混合(FTM)と呼ばれる新しいデータ拡張戦略を提案し,モデルがより一般的なシナリオを学習できるようにする。
最後に,データ拡張を伴う不連続な運動領域の監視を行うための損失関数を提案する。
モバイルゲームやチャットビデオからなる特別なデータセットを収集しました。
本手法は,特殊データセット上の映像の補間特性を著しく改善することを示す。
さらに,本モデルは,DAVISやUCF101のような連続的な動きのみを含む自然なビデオデータセットの最先端手法よりも優れている。
関連論文リスト
- Unfolding Videos Dynamics via Taylor Expansion [5.723852805622308]
ビデオの自己教師型動的学習戦略について紹介する: インスタンス識別のためのビデオ時間差分法(ViDiDi)
ViDiDiは、フレームシーケンスの時間的デリバティブのさまざまな順序を通して、ビデオの異なる側面を観察する。
ViDiDiは、ビデオとその時間微分を一貫した埋め込みにエンコードする単一のニューラルネットワークを学習する。
論文 参考訳(メタデータ) (2024-09-04T01:41:09Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。