論文の概要: Extracting Motion and Appearance via Inter-Frame Attention for Efficient
Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2303.00440v1
- Date: Wed, 1 Mar 2023 12:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 15:08:00.673275
- Title: Extracting Motion and Appearance via Inter-Frame Attention for Efficient
Video Frame Interpolation
- Title(参考訳): 効率的なビデオフレーム補間のためのフレーム間注意による動きと外観の抽出
- Authors: Guozhen Zhang, Yuhan Zhu, Haonan Wang, Youxin Chen, Gangshan Wu, Limin
Wang
- Abstract要約: 動作と外観情報を統一操作により明示的に抽出する新しいモジュールを提案する。
具体的には、フレーム間注目における情報処理を再考し、その注目マップを外観特徴強調と動き情報抽出の両方に再利用する。
固定時間と任意時間の両方において,本手法は各種データセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 46.23787695590861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively extracting inter-frame motion and appearance information is
important for video frame interpolation (VFI). Previous works either extract
both types of information in a mixed way or elaborate separate modules for each
type of information, which lead to representation ambiguity and low efficiency.
In this paper, we propose a novel module to explicitly extract motion and
appearance information via a unifying operation. Specifically, we rethink the
information process in inter-frame attention and reuse its attention map for
both appearance feature enhancement and motion information extraction.
Furthermore, for efficient VFI, our proposed module could be seamlessly
integrated into a hybrid CNN and Transformer architecture. This hybrid pipeline
can alleviate the computational complexity of inter-frame attention as well as
preserve detailed low-level structure information. Experimental results
demonstrate that, for both fixed- and arbitrary-timestep interpolation, our
method achieves state-of-the-art performance on various datasets. Meanwhile,
our approach enjoys a lighter computation overhead over models with close
performance. The source code and models are available at
https://github.com/MCG-NJU/EMA-VFI.
- Abstract(参考訳): 映像フレーム補間(vfi)において,フレーム間動作と外観情報を効果的に抽出することが重要である。
以前の作業では、両タイプの情報を混合的に抽出するか、それぞれのタイプの情報に対して精巧に分離したモジュールを抽出し、表現の曖昧さと効率の低下につながる。
本稿では,動作と外観情報を統一操作により明示的に抽出する新しいモジュールを提案する。
具体的には、フレーム間注目における情報処理を再考し、その注目マップを外観特徴強調と動き情報抽出の両方に再利用する。
さらに,効率的なVFIを実現するため,提案モジュールをハイブリッドCNNとTransformerアーキテクチャにシームレスに統合することができた。
このハイブリッドパイプラインはフレーム間注意の計算の複雑さを軽減し、詳細な低レベル構造情報を保存できる。
実験の結果,固定時間と任意の時間ステップの補間において,様々なデータセットにおける最先端の性能が得られた。
一方,本手法では,性能が近いモデルよりも計算オーバーヘッドが軽い。
ソースコードとモデルはhttps://github.com/MCG-NJU/EMA-VFIで公開されている。
関連論文リスト
- Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - NIO: Lightweight neural operator-based architecture for video frame
interpolation [15.875579519177487]
NIOは、ビデオフレーム・バイ・フレーム学習を実行するための軽量で効率的なニューラル演算子ベースのアーキテクチャである。
我々は、NIOが視覚的に滑らかで正確な結果を生成でき、最先端のアプローチよりもエポックに収束することが示している。
論文 参考訳(メタデータ) (2022-11-19T20:30:47Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。
提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-14T14:39:08Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。