論文の概要: Video Frame Interpolation Transformer
- arxiv url: http://arxiv.org/abs/2111.13817v1
- Date: Sat, 27 Nov 2021 05:35:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:13:05.752537
- Title: Video Frame Interpolation Transformer
- Title(参考訳): ビデオフレーム補間変換器
- Authors: Zhihao Shi, Xiangyu Xu, Xiaohong Liu, Jun Chen, Ming-Hsuan Yang
- Abstract要約: 本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
- 参考スコア(独自算出の注目度): 86.20646863821908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for video interpolation heavily rely on deep convolution
neural networks, and thus suffer from their intrinsic limitations, such as
content-agnostic kernel weights and restricted receptive field. To address
these issues, we propose a Transformer-based video interpolation framework that
allows content-aware aggregation weights and considers long-range dependencies
with the self-attention operations. To avoid the high computational cost of
global self-attention, we introduce the concept of local attention into video
interpolation and extend it to the spatial-temporal domain. Furthermore, we
propose a space-time separation strategy to save memory usage, which also
improves performance. In addition, we develop a multi-scale frame synthesis
scheme to fully realize the potential of Transformers. Extensive experiments
demonstrate the proposed model performs favorably against the state-of-the-art
methods both quantitatively and qualitatively on a variety of benchmark
datasets.
- Abstract(参考訳): ビデオ補間のための既存の手法は深い畳み込みニューラルネットワークに大きく依存しており、コンテンツに依存しないカーネル重みや制限された受容野といった固有の制限に苦しめられている。
そこで本研究では,コンテンツ認識型アグレゲーション重み付けと,セルフアテクション操作との長距離依存性を考慮したトランスフォーマティブベースのビデオ補間フレームワークを提案する。
グローバルな自己注意の計算コストが高くなるのを避けるため,ビデオ補間における局所的注意の概念を導入し,空間時間領域に拡張する。
さらに,メモリ使用量を削減するための時空間分離戦略を提案する。
さらに,トランスのポテンシャルを十分に実現するためのマルチスケールフレーム合成手法を開発した。
大規模な実験により、提案モデルは様々なベンチマークデータセット上で定量的かつ質的に、最先端の手法に対して好適に機能することを示した。
関連論文リスト
- Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Video Frame Interpolation with Flow Transformer [31.371987879960287]
ビデオフレームは畳み込みニューラルネットワークの開発で活発に研究されている。
本稿では,映像フレーム補間フロー変換器を提案する。
本フレームワークは, フレームを高い動きで補間するのに適しており, 複雑度は十分低い。
論文 参考訳(メタデータ) (2023-07-30T06:44:37Z) - Efficient Convolution and Transformer-Based Network for Video Frame
Interpolation [11.036815066639473]
トランスエンコーダと畳み込み機能を組み合わせた新しい手法を提案する。
このネットワークは、メモリ負荷を50%近く削減し、推論時間中に最大4倍高速に動作させる。
局所相関のモデル化における畳み込みの強さと長距離依存のための変換器の強度を結合したデュアルエンコーダアーキテクチャが導入された。
論文 参考訳(メタデータ) (2023-07-12T20:14:06Z) - Continuous Space-Time Video Super-Resolution Utilizing Long-Range
Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。
本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-26T08:02:39Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。
注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。
提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文 参考訳(メタデータ) (2021-01-21T20:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。