論文の概要: XVFI: eXtreme Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2103.16206v1
- Date: Tue, 30 Mar 2021 09:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:56:31.002929
- Title: XVFI: eXtreme Video Frame Interpolation
- Title(参考訳): XVFI: eXtremeビデオフレーム補間
- Authors: Hyeonjun Sim, Jihyong Oh, Munchurl Kim
- Abstract要約: 我々は,1000fpsの4k動画のデータセット(x4k1000fps)をビデオフレーム研究コミュニティ(vfi)に紹介する。
まず4K動画のVFIを大きな動きで処理する、XVFI-Netと呼ばれる極端なVFIネットワークを提案します。
- 参考スコア(独自算出の注目度): 46.58283513349961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we firstly present a dataset (X4K1000FPS) of 4K videos of 1000
fps with the extreme motion to the research community for video frame
interpolation (VFI), and propose an extreme VFI network, called XVFI-Net, that
first handles the VFI for 4K videos with large motion. The XVFI-Net is based on
a recursive multi-scale shared structure that consists of two cascaded modules
for bidirectional optical flow learning between two input frames (BiOF-I) and
for bidirectional optical flow learning from target to input frames (BiOF-T).
The optical flows are stably approximated by a complementary flow reversal
(CFR) proposed in BiOF-T module. During inference, the BiOF-I module can start
at any scale of input while the BiOF-T module only operates at the original
input scale so that the inference can be accelerated while maintaining highly
accurate VFI performance. Extensive experimental results show that our XVFI-Net
can successfully capture the essential information of objects with extremely
large motions and complex textures while the state-of-the-art methods exhibit
poor performance. Furthermore, our XVFI-Net framework also performs comparably
on the previous lower resolution benchmark dataset, which shows a robustness of
our algorithm as well. All source codes, pre-trained models, and proposed
X4K1000FPS datasets are publicly available at
https://github.com/JihyongOh/XVFI.
- Abstract(参考訳): 本稿では、まず、1000fpsの4Kビデオのデータセット(X4K1000FPS)を、ビデオフレーム補間(VFI)研究コミュニティに提示し、まず、大きなモーションで4KビデオのVFIを処理する極端VFIネットワークであるXVFI-Netを提案する。
XVFI-Netは、2つの入力フレーム(BiOF-I)間の双方向光フロー学習のための2つのカスケードモジュールと、ターゲットから入力フレーム(BiOF-T)への双方向光フロー学習のための再帰的なマルチスケール共有構造に基づいている。
光学フローはBiOF-Tモジュールで提案された補流逆流(CFR)によって安定に近似される。
推論中、BiOF-Iモジュールは任意の入力スケールで開始でき、BiOF-Tモジュールは元の入力スケールでのみ動作し、高精度なVFI性能を維持しながら推論を加速することができる。
広範な実験結果から,我々のxvfi-netは,非常に大きな動きと複雑なテクスチャを持つ物体の必須情報をキャプチャすることに成功した。
さらに、我々のXVFI-Netフレームワークは、以前の低解像度ベンチマークデータセットでも比較可能であり、アルゴリズムの堅牢性も示しています。
すべてのソースコード、事前訓練されたモデル、提案されたX4K1000FPSデータセットはhttps://github.com/JihyongOh/XVFIで公開されている。
関連論文リスト
- Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation [11.611045114232187]
最近の方法では、既存のカメラビュー間でのみビュー合成が行われており、ガイダンスが不十分である。
フローベースビデオフレーム作成(VFI)により、より仮想的なカメラビューを合成しようと試みる。
多フレーム推論では、MaryDepthのような明示的な幾何ベースのメソッドで発生する動的オブジェクトの問題を横取りするために、機能融合パラダイムに戻ります。
シングルフレームとマルチフレームの奥行きを双方向に接続するために,Mono-ViFIという自己教師型学習フレームワークを構築した。
論文 参考訳(メタデータ) (2024-07-19T08:51:51Z) - A Multi-In-Single-Out Network for Video Frame Interpolation without
Optical Flow [14.877766449009119]
深層学習に基づくビデオフレーム (VFI) 法は、2つの入力フレーム間の動きを推定することに集中している。
動作ベクトル推定に依存しないマルチインシングルアウト(MISO)に基づくVFI法を提案する。
我々はMISO-VFIがビデオフレーム内のベクトル時間をよりよくキャプチャできる新しい動き知覚損失を導入した。
論文 参考訳(メタデータ) (2023-11-20T08:29:55Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame
Interpolation with Events [14.098949778274733]
イベントカメラは、フレーム間のダイナミクスを極めて高い時間分解能で捉えるのに最適である。
IDO-VFIというイベント・アンド・フレームベースのビデオフレーム方式を提案する。
提案手法は,Vimeo90Kデータセット上での計算時間と計算労力をそれぞれ10%と17%削減しつつ,高品質な性能を維持する。
論文 参考訳(メタデータ) (2023-05-17T13:22:21Z) - Extracting Motion and Appearance via Inter-Frame Attention for Efficient
Video Frame Interpolation [46.23787695590861]
動作と外観情報を統一操作により明示的に抽出する新しいモジュールを提案する。
具体的には、フレーム間注目における情報処理を再考し、その注目マップを外観特徴強調と動き情報抽出の両方に再利用する。
固定時間と任意時間の両方において,本手法は各種データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-01T12:00:15Z) - H-VFI: Hierarchical Frame Interpolation for Videos with Large Motions [63.23985601478339]
本稿では,ビデオフレームにおける大きな動きに対処する,単純で効果的なH-VFI法を提案する。
H-VFIは、粗大な戦略で変形可能なカーネルを学習するために階層型ビデオ変換器に寄与する。
このようなプログレッシブ近似の利点は、大きなモーションフレーム問題を比較的単純ないくつかのサブタスクに予測できることである。
論文 参考訳(メタデータ) (2022-11-21T09:49:23Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Spatio-Temporal Multi-Flow Network for Video Frame Interpolation [3.6053802212032995]
ビデオフレーム(VFI)は、コンピュータビジョン、ポストプロダクション、ビデオエンコーディングなど、非常に活発な研究トピックである。
本稿では,時空間マルチフローアーキテクチャに基づく新しい深層学習型VFI手法ST-MFNetを提案する。
論文 参考訳(メタデータ) (2021-11-30T15:18:46Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。