論文の概要: Video Frame Interpolation with Transformer
- arxiv url: http://arxiv.org/abs/2205.07230v1
- Date: Sun, 15 May 2022 09:30:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 17:00:33.158668
- Title: Video Frame Interpolation with Transformer
- Title(参考訳): トランスを用いたビデオフレーム補間
- Authors: Liying Lu, Ruizheng Wu, Huaijia Lin, Jiangbo Lu, Jiaya Jia
- Abstract要約: 本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
- 参考スコア(独自算出の注目度): 55.12620857638253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video frame interpolation (VFI), which aims to synthesize intermediate frames
of a video, has made remarkable progress with development of deep convolutional
networks over past years. Existing methods built upon convolutional networks
generally face challenges of handling large motion due to the locality of
convolution operations. To overcome this limitation, we introduce a novel
framework, which takes advantage of Transformer to model long-range pixel
correlation among video frames. Further, our network is equipped with a novel
cross-scale window-based attention mechanism, where cross-scale windows
interact with each other. This design effectively enlarges the receptive field
and aggregates multi-scale information. Extensive quantitative and qualitative
experiments demonstrate that our method achieves new state-of-the-art results
on various benchmarks.
- Abstract(参考訳): ビデオの中間フレームを合成することを目的としたビデオフレーム補間(VFI)は,近年の深層畳み込みネットワークの発展によって著しく進歩している。
畳み込みネットワーク上に構築された既存の手法は、畳み込み操作の局所性のために大きな動きを扱うという課題に直面している。
この制限を克服するために,ビデオフレーム間の長距離画素相関をモデル化するtransformerを利用した新しい枠組みを提案する。
さらに,我々のネットワークは,クロススケールウィンドウが相互に対話する,新しいウィンドウベースのアテンション機構を備えている。
この設計はレセプティブフィールドを効果的に拡大し、マルチスケール情報を集約する。
大規模定量的および定性的な実験により,本手法は様々なベンチマークで新しい最先端結果が得られることを示した。
関連論文リスト
- Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Video Frame Interpolation with Flow Transformer [31.371987879960287]
ビデオフレームは畳み込みニューラルネットワークの開発で活発に研究されている。
本稿では,映像フレーム補間フロー変換器を提案する。
本フレームワークは, フレームを高い動きで補間するのに適しており, 複雑度は十分低い。
論文 参考訳(メタデータ) (2023-07-30T06:44:37Z) - Efficient Convolution and Transformer-Based Network for Video Frame
Interpolation [11.036815066639473]
トランスエンコーダと畳み込み機能を組み合わせた新しい手法を提案する。
このネットワークは、メモリ負荷を50%近く削減し、推論時間中に最大4倍高速に動作させる。
局所相関のモデル化における畳み込みの強さと長距離依存のための変換器の強度を結合したデュアルエンコーダアーキテクチャが導入された。
論文 参考訳(メタデータ) (2023-07-12T20:14:06Z) - Progressive Motion Context Refine Network for Efficient Video Frame
Interpolation [10.369068266836154]
フローベースフレーム法は、まず、ターゲットフレームと入力フレームの間の光フローをモデル化し、次いで、ターゲットフレーム生成のための合成ネットワークを構築することで、大きな成功を収めた。
本稿では,動き場と画像コンテキストを協調的に予測し,高い効率性を実現するための新しいプログレッシブ・モーション・コンテキスト・リファイン・ネットワーク(PMCRNet)を提案する。
複数のベンチマーク実験により、提案手法は好意的かつ定量的な結果を得るだけでなく、モデルのサイズや実行時間を大幅に短縮することが示された。
論文 参考訳(メタデータ) (2022-11-11T06:29:03Z) - Spatio-Temporal Multi-Flow Network for Video Frame Interpolation [3.6053802212032995]
ビデオフレーム(VFI)は、コンピュータビジョン、ポストプロダクション、ビデオエンコーディングなど、非常に活発な研究トピックである。
本稿では,時空間マルチフローアーキテクチャに基づく新しい深層学習型VFI手法ST-MFNetを提案する。
論文 参考訳(メタデータ) (2021-11-30T15:18:46Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。