論文の概要: Unifying Global and Local Scene Entities Modelling for Precise Action Spotting
- arxiv url: http://arxiv.org/abs/2404.09951v1
- Date: Mon, 15 Apr 2024 17:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:27:57.950350
- Title: Unifying Global and Local Scene Entities Modelling for Precise Action Spotting
- Title(参考訳): 精密アクションスポッティングのためのグローバル・ローカル・シーン・エンティティ・モデリング
- Authors: Kim Hoang Tran, Phuc Vuong Do, Ngoc Quoc Ly, Ngan Le,
- Abstract要約: 本稿では,アダプティブ・アテンション・メカニズムを用いてシーン・エンティティを解析・モデル化する手法を提案する。
我々のモデルは優れたパフォーマンスを示しており、サッカーネットv2アクションスポッティング、ファインディビング、ファインジムの課題において、第1位を確保している。
- 参考スコア(独自算出の注目度): 5.474440128682843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sports videos pose complex challenges, including cluttered backgrounds, camera angle changes, small action-representing objects, and imbalanced action class distribution. Existing methods for detecting actions in sports videos heavily rely on global features, utilizing a backbone network as a black box that encompasses the entire spatial frame. However, these approaches tend to overlook the nuances of the scene and struggle with detecting actions that occupy a small portion of the frame. In particular, they face difficulties when dealing with action classes involving small objects, such as balls or yellow/red cards in soccer, which only occupy a fraction of the screen space. To address these challenges, we introduce a novel approach that analyzes and models scene entities using an adaptive attention mechanism. Particularly, our model disentangles the scene content into the global environment feature and local relevant scene entities feature. To efficiently extract environmental features while considering temporal information with less computational cost, we propose the use of a 2D backbone network with a time-shift mechanism. To accurately capture relevant scene entities, we employ a Vision-Language model in conjunction with the adaptive attention mechanism. Our model has demonstrated outstanding performance, securing the 1st place in the SoccerNet-v2 Action Spotting, FineDiving, and FineGym challenge with a substantial performance improvement of 1.6, 2.0, and 1.3 points in avg-mAP compared to the runner-up methods. Furthermore, our approach offers interpretability capabilities in contrast to other deep learning models, which are often designed as black boxes. Our code and models are released at: https://github.com/Fsoft-AIC/unifying-global-local-feature.
- Abstract(参考訳): スポーツビデオは、乱雑な背景、カメラアングルの変化、小さなアクション表現オブジェクト、不均衡なアクションクラス分布など、複雑な課題を生んでいる。
既存のスポーツビデオにおける行動検出方法は、空間フレーム全体を包含するブラックボックスとしてバックボーンネットワークを利用して、グローバルな特徴に大きく依存している。
しかし、これらのアプローチはシーンのニュアンスを見落とし、フレームのごく一部を占めるアクションを検出するのに苦労する傾向にある。
特に、ボールや黄色/赤のカードなど、画面空間のごく一部を占める小さな物体を扱う場合の難しさに直面する。
これらの課題に対処するため,アダプティブ・アテンション・メカニズムを用いてシーン・エンティティを解析・モデル化する手法を提案する。
特に,本モデルでは,シーンコンテンツをグローバルな環境機能とローカルなシーンエンティティ機能に分解する。
時間的情報を少ない計算コストで考慮し,環境特性を効率的に抽出するために,時間シフト機構を備えた2次元バックボーンネットワークを提案する。
関連するシーンを正確に把握するために、適応的なアテンション機構とともにビジョン・ランゲージモデルを用いる。
また,本モデルでは,FocoNet-v2アクションスポッティング,ファインディヴィング,ファインガイムの1位を獲得し,アvg-mAPの1.6,2.0,1.3ポイントの大幅な性能向上を実現した。
さらに,本手法は,ブラックボックスとして設計される他のディープラーニングモデルとは対照的に,解釈可能性を提供する。
私たちのコードとモデルは、https://github.com/Fsoft-AIC/unifying-global-local-feature.comでリリースされています。
関連論文リスト
- DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。
本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。
我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文 参考訳(メタデータ) (2024-07-24T02:44:41Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Spotting Temporally Precise, Fine-Grained Events in Video [23.731838969934206]
ビデオ中に時間的に正確できめ細かなイベントを見つけるタスクを導入する。
モデルは、フルタイムのアクションスケールについてグローバルに推論し、微妙なフレーム間の外観と動きの違いを特定するために、ローカルで行う必要がある。
E2E-Spotは、精密なスポッティングタスクでよく機能し、1つのGPUで迅速にトレーニングできる、コンパクトでエンドツーエンドのモデルである。
論文 参考訳(メタデータ) (2022-07-20T22:15:07Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。