論文の概要: Unifying Global and Local Scene Entities Modelling for Precise Action Spotting
- arxiv url: http://arxiv.org/abs/2404.09951v1
- Date: Mon, 15 Apr 2024 17:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:27:57.950350
- Title: Unifying Global and Local Scene Entities Modelling for Precise Action Spotting
- Title(参考訳): 精密アクションスポッティングのためのグローバル・ローカル・シーン・エンティティ・モデリング
- Authors: Kim Hoang Tran, Phuc Vuong Do, Ngoc Quoc Ly, Ngan Le,
- Abstract要約: 本稿では,アダプティブ・アテンション・メカニズムを用いてシーン・エンティティを解析・モデル化する手法を提案する。
我々のモデルは優れたパフォーマンスを示しており、サッカーネットv2アクションスポッティング、ファインディビング、ファインジムの課題において、第1位を確保している。
- 参考スコア(独自算出の注目度): 5.474440128682843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sports videos pose complex challenges, including cluttered backgrounds, camera angle changes, small action-representing objects, and imbalanced action class distribution. Existing methods for detecting actions in sports videos heavily rely on global features, utilizing a backbone network as a black box that encompasses the entire spatial frame. However, these approaches tend to overlook the nuances of the scene and struggle with detecting actions that occupy a small portion of the frame. In particular, they face difficulties when dealing with action classes involving small objects, such as balls or yellow/red cards in soccer, which only occupy a fraction of the screen space. To address these challenges, we introduce a novel approach that analyzes and models scene entities using an adaptive attention mechanism. Particularly, our model disentangles the scene content into the global environment feature and local relevant scene entities feature. To efficiently extract environmental features while considering temporal information with less computational cost, we propose the use of a 2D backbone network with a time-shift mechanism. To accurately capture relevant scene entities, we employ a Vision-Language model in conjunction with the adaptive attention mechanism. Our model has demonstrated outstanding performance, securing the 1st place in the SoccerNet-v2 Action Spotting, FineDiving, and FineGym challenge with a substantial performance improvement of 1.6, 2.0, and 1.3 points in avg-mAP compared to the runner-up methods. Furthermore, our approach offers interpretability capabilities in contrast to other deep learning models, which are often designed as black boxes. Our code and models are released at: https://github.com/Fsoft-AIC/unifying-global-local-feature.
- Abstract(参考訳): スポーツビデオは、乱雑な背景、カメラアングルの変化、小さなアクション表現オブジェクト、不均衡なアクションクラス分布など、複雑な課題を生んでいる。
既存のスポーツビデオにおける行動検出方法は、空間フレーム全体を包含するブラックボックスとしてバックボーンネットワークを利用して、グローバルな特徴に大きく依存している。
しかし、これらのアプローチはシーンのニュアンスを見落とし、フレームのごく一部を占めるアクションを検出するのに苦労する傾向にある。
特に、ボールや黄色/赤のカードなど、画面空間のごく一部を占める小さな物体を扱う場合の難しさに直面する。
これらの課題に対処するため,アダプティブ・アテンション・メカニズムを用いてシーン・エンティティを解析・モデル化する手法を提案する。
特に,本モデルでは,シーンコンテンツをグローバルな環境機能とローカルなシーンエンティティ機能に分解する。
時間的情報を少ない計算コストで考慮し,環境特性を効率的に抽出するために,時間シフト機構を備えた2次元バックボーンネットワークを提案する。
関連するシーンを正確に把握するために、適応的なアテンション機構とともにビジョン・ランゲージモデルを用いる。
また,本モデルでは,FocoNet-v2アクションスポッティング,ファインディヴィング,ファインガイムの1位を獲得し,アvg-mAPの1.6,2.0,1.3ポイントの大幅な性能向上を実現した。
さらに,本手法は,ブラックボックスとして設計される他のディープラーニングモデルとは対照的に,解釈可能性を提供する。
私たちのコードとモデルは、https://github.com/Fsoft-AIC/unifying-global-local-feature.comでリリースされています。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Spotting Temporally Precise, Fine-Grained Events in Video [23.731838969934206]
ビデオ中に時間的に正確できめ細かなイベントを見つけるタスクを導入する。
モデルは、フルタイムのアクションスケールについてグローバルに推論し、微妙なフレーム間の外観と動きの違いを特定するために、ローカルで行う必要がある。
E2E-Spotは、精密なスポッティングタスクでよく機能し、1つのGPUで迅速にトレーニングできる、コンパクトでエンドツーエンドのモデルである。
論文 参考訳(メタデータ) (2022-07-20T22:15:07Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。