論文の概要: SFMViT: SlowFast Meet ViT in Chaotic World
- arxiv url: http://arxiv.org/abs/2404.16609v1
- Date: Thu, 25 Apr 2024 13:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:40:12.215605
- Title: SFMViT: SlowFast Meet ViT in Chaotic World
- Title(参考訳): SFMViT:SlowFast、カオスの世界でViTと出会う
- Authors: Jiaying Lin, Jiajun Wen, Mengyuan Liu, Jinfu Liu, Baiqiao Yin, Yue Li,
- Abstract要約: 本稿では,アンカープルーニング戦略を用いた高性能なデュアルストリーム特徴抽出ネットワークSFMTモデルを提案する。
画像の各フレームで検出されたアンカーをプーンし、有効アンカーをフィルタリングするために、信頼度最大ヒープを導入する。
これらの設計により、ViTは26のmAPを達成できます。
- 参考スコア(独自算出の注目度): 17.253937687487717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of spatiotemporal action localization in chaotic scenes is a challenging task toward advanced video understanding. Paving the way with high-quality video feature extraction and enhancing the precision of detector-predicted anchors can effectively improve model performance. To this end, we propose a high-performance dual-stream spatiotemporal feature extraction network SFMViT with an anchor pruning strategy. The backbone of our SFMViT is composed of ViT and SlowFast with prior knowledge of spatiotemporal action localization, which fully utilizes ViT's excellent global feature extraction capabilities and SlowFast's spatiotemporal sequence modeling capabilities. Secondly, we introduce the confidence maximum heap to prune the anchors detected in each frame of the picture to filter out the effective anchors. These designs enable our SFMViT to achieve a mAP of 26.62% in the Chaotic World dataset, far exceeding existing models. Code is available at https://github.com/jfightyr/SlowFast-Meet-ViT.
- Abstract(参考訳): カオスシーンにおける時空間的行動ローカライゼーションの課題は,高度な映像理解に向けた課題である。
高品質な映像特徴抽出と、検出器予測アンカーの精度の向上により、モデル性能を効果的に向上させることができる。
そこで本研究では,アンカープルーニング戦略を備えた高性能なデュアルストリーム時空間特徴抽出ネットワークSFMViTを提案する。
SFMViTのバックボーンは、ViTの優れたグローバル特徴抽出機能とSlowFastの時空間シーケンスモデリング機能を完全に活用した時空間動作ローカライゼーションの事前知識を備えたViTとSlowFastで構成されている。
次に,画像の各フレームに検出されたアンカーをプーンし,有効アンカーをフィルタする信頼性最大ヒープを導入する。
これらの設計により、SFMViTはカオスワールドデータセットにおいて26.62%のmAPを達成でき、既存のモデルよりはるかに上回っている。
コードはhttps://github.com/jfightyr/SlowFast-Meet-ViT.comで入手できる。
関連論文リスト
- SF-TMN: SlowFast Temporal Modeling Network for Surgical Phase
Recognition [0.5669790037378094]
外科的位相認識のためのSlowFast Temporal Modeling Network (SF-TMN)を提案する。
フレームレベルのフルビデオ時間モデリングとセグメントレベルのフルビデオ時間モデリングを実現する。
ASFormerのバックボーンを持つSF-TMNは、最先端のNot End-to-End(TCN)メソッドよりも精度が2.6%、Jaccardスコアが7.4%向上している。
論文 参考訳(メタデータ) (2023-06-15T05:04:29Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Exploring Stronger Feature for Temporal Action Localization [41.23726979184197]
時間的アクションローカライゼーションは、アクションカテゴリによる開始と終了の時間をローカライズすることを目的としている。
我々は、古典的な畳み込みベースのバックボーンと、最近のトランスフォーマーベースのバックボーンの急増について検討した。
単純な組み合わせで単一のSlowFast機能を備えた検証セットのmAPで42.42%を達成する。
論文 参考訳(メタデータ) (2021-06-24T13:46:30Z) - Enhanced Spatio-Temporal Interaction Learning for Video Deraining: A
Faster and Better Framework [93.37833982180538]
不要な雨がビデオの可視性を阻害し、ほとんどの屋外ビジョンシステムの堅牢性を低下させるため、ビデオ排水はコンピュータビジョンの重要なタスクです。
拡張時空間相互作用ネットワーク(ESTINet)と呼ばれる新しいエンドツーエンドのデラミニングフレームワークを提案する。
ESTINetは、現在の最先端ビデオの画質とスピードを大幅に向上させる。
論文 参考訳(メタデータ) (2021-03-23T05:19:35Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Semantic Flow for Fast and Accurate Scene Parsing [28.444273169423074]
フローアライメントモジュール(FAM)は、隣接するレベルの特徴マップ間のセマンティックフローを学習する。
Cityscapes、PASCAL Context、ADE20K、CamVidなど、いくつかの挑戦的なデータセットで実験が行われている。
私たちのネットワークは、26FPSのフレームレートで80.4%のmIoUをCityscapesで達成した初めてのネットワークです。
論文 参考訳(メタデータ) (2020-02-24T08:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。