論文の概要: Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition
- arxiv url: http://arxiv.org/abs/2307.06947v4
- Date: Fri, 27 Oct 2023 15:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:15:21.505270
- Title: Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition
- Title(参考訳): Video-FocalNets:ビデオ行動認識のための時空間修正
- Authors: Syed Talal Wasim, Muhammad Uzair Khattak, Muzammal Naseer, Salman
Khan, Mubarak Shah, Fahad Shahbaz Khan
- Abstract要約: Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
- 参考スコア(独自算出の注目度): 112.66832145320434
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent video recognition models utilize Transformer models for long-range
spatio-temporal context modeling. Video transformer designs are based on
self-attention that can model global context at a high computational cost. In
comparison, convolutional designs for videos offer an efficient alternative but
lack long-range dependency modeling. Towards achieving the best of both
designs, this work proposes Video-FocalNet, an effective and efficient
architecture for video recognition that models both local and global contexts.
Video-FocalNet is based on a spatio-temporal focal modulation architecture that
reverses the interaction and aggregation steps of self-attention for better
efficiency. Further, the aggregation step and the interaction step are both
implemented using efficient convolution and element-wise multiplication
operations that are computationally less expensive than their self-attention
counterparts on video representations. We extensively explore the design space
of focal modulation-based spatio-temporal context modeling and demonstrate our
parallel spatial and temporal encoding design to be the optimal choice.
Video-FocalNets perform favorably well against the state-of-the-art
transformer-based models for video recognition on five large-scale datasets
(Kinetics-400, Kinetics-600, SS-v2, Diving-48, and ActivityNet-1.3) at a lower
computational cost. Our code/models are released at
https://github.com/TalalWasim/Video-FocalNets.
- Abstract(参考訳): 最近のビデオ認識モデルは、長距離時空間モデリングにTransformerモデルを使用している。
ビデオトランスフォーマーの設計は、高い計算コストでグローバルコンテキストをモデル化できるセルフアテンションに基づいている。
比較として、ビデオの畳み込み設計は効率的な代替手段を提供するが、長距離依存モデリングは欠如している。
この研究は、両方の設計のベストを達成するために、ローカルコンテキストとグローバルコンテキストの両方をモデル化した、ビデオ認識のための効率的かつ効率的なアーキテクチャであるVideo-FocalNetを提案する。
Video-FocalNetは、より効率的な自己注意の相互作用と集約ステップを反転させる、時空間焦点変調アーキテクチャに基づいている。
さらに、アグリゲーションステップとインタラクションステップは、効率的な畳み込みと、ビデオ表現上の自己注意処理よりも計算コストの低い要素乗算演算を用いて実装される。
焦点変調に基づく時空間空間モデルの設計空間を広範に検討し、並列空間および時空間符号化設計が最適選択であることを示す。
video-focalnetsは、5つの大規模データセット(kinetics-400, kinetics-600, ss-v2, dive-48, activitynet-1.3)でビデオ認識のための最先端のトランスフォーマモデルに対して、低い計算コストで優れた性能を発揮する。
私たちのコード/モデルはhttps://github.com/talalwasim/video-focalnetsでリリースしています。
関連論文リスト
- RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z) - Deformable Video Transformer [44.71254375663616]
本稿では,DVT(Deformable Video Transformer)を導入し,ビデオパッチの少数のサブセットを動作情報に基づいて,各クエリロケーションへの参加を予測した。
本モデルでは,計算コストが同じか低い場合に高い精度を達成し,4つのデータセットに対して最先端の計算結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T04:52:27Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。