論文の概要: Multi-Scale Attention and Gated Shifting for Fine-Grained Event Spotting in Videos
- arxiv url: http://arxiv.org/abs/2507.07381v1
- Date: Thu, 10 Jul 2025 02:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.252445
- Title: Multi-Scale Attention and Gated Shifting for Fine-Grained Event Spotting in Videos
- Title(参考訳): ビデオにおける微細イベントスポッティングのためのマルチスケールアテンションとゲートシフト
- Authors: Hao Xu, Arbind Agrahari Baniya, Sam Wells, Mohamed Reda Bouadjenek, Richard Dazeley, Sunil Aryal,
- Abstract要約: スポーツビデオにおける精密イベントスポッティング(PES)のためのマルチスケール注意ゲートシフトモジュール(MSA GSM)を提案する。
MSA GSMは、多段階の時間的拡張と複数頭部空間的注意を伴ってGSMを強化し、短期および長期の依存関係の効率的なモデリングを可能にする。
この分野をさらに進めるために、Table Tennis Australia (TTA)データセット(テーブルテニスを含む4800以上の正確な注釈付きイベントのための最初のPSSベンチマーク)を紹介する。
- 参考スコア(独自算出の注目度): 5.747955930615445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Precise Event Spotting (PES) in sports videos requires frame-level recognition of fine-grained actions from single-camera footage. Existing PES models typically incorporate lightweight temporal modules such as Gate Shift Module (GSM) or Gate Shift Fuse (GSF) to enrich 2D CNN feature extractors with temporal context. However, these modules are limited in both temporal receptive field and spatial adaptability. We propose a Multi-Scale Attention Gate Shift Module (MSAGSM) that enhances GSM with multi-scale temporal dilations and multi-head spatial attention, enabling efficient modeling of both short- and long-term dependencies while focusing on salient regions. MSAGSM is a lightweight plug-and-play module that can be easily integrated with various 2D backbones. To further advance the field, we introduce the Table Tennis Australia (TTA) dataset-the first PES benchmark for table tennis-containing over 4800 precisely annotated events. Extensive experiments across five PES benchmarks demonstrate that MSAGSM consistently improves performance with minimal overhead, setting new state-of-the-art results.
- Abstract(参考訳): スポーツビデオにおける精密イベントスポッティング(PES)は、単一カメラ映像からのきめ細かいアクションをフレームレベルで認識する必要がある。
既存のPSSモデルは一般的に、GSM(Gate Shift Module)やGSF(Gate Shift Fuse)のような軽量の一時的なモジュールを組み込んで、2D CNN特徴抽出器を時間的コンテキストで強化する。
しかし、これらのモジュールは時間的受容場と空間的適応性の両方に制限されている。
本稿では,多段階の時間的拡張と複数頭部空間的注意を伴ってGSMを向上させるマルチスケールアテンションゲートシフトモジュール(MSAGSM)を提案する。
MSAGSMは軽量なプラグイン・アンド・プレイモジュールで、様々な2Dバックボーンと簡単に統合できる。
この分野をさらに進めるために、Table Tennis Australia (TTA)データセット(テーブルテニスを含む4800以上の正確な注釈付きイベントのための最初のPSSベンチマーク)を紹介する。
5つのPESベンチマークによる大規模な実験により、MSAGSMは最小限のオーバーヘッドでパフォーマンスを継続的に改善し、新しい最先端の結果が設定された。
関連論文リスト
- Extended Short- and Long-Range Mesh Learning for Fast and Generalized Garment Simulation [15.769706073808031]
3次元衣料シミュレーションは、布ベースのグラフィックを作る上で重要な要素である。
グラフニューラルネットワーク(GNN)の最近の進歩は、効率的な衣服シミュレーションに有望なアプローチを提供する。
我々は、最小限のオーバーヘッドでメッセージパス範囲を拡張するために、2つの重要なコンポーネントを持つ新しいGNNベースのメッシュ学習フレームワークを考案した。
論文 参考訳(メタデータ) (2025-04-16T04:56:01Z) - MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection [11.534493974662304]
未トリミングビデオにおける時間的行動検出(TAD)は、長期保存ビデオを効率的に処理できるモデルを必要とする。
我々は,多スケールテンポラルマンバ (MS-Temba) を提案する。
MS-Tembaは、長期ビデオの最先端のパフォーマンスを達成し、短いセグメントで競争力を維持し、モデルの複雑さを88%削減する。
論文 参考訳(メタデータ) (2025-01-10T17:52:47Z) - HiMTM: Hierarchical Multi-Scale Masked Time Series Modeling with Self-Distillation for Long-Term Forecasting [17.70984737213973]
HiMTMは長期予測のための自己蒸留を用いた階層型マルチスケールマスク時系列モデリングである。
HiMTMは,(1)階層型マルチスケールトランスフォーマー (HMT) と,2) エンコーダを特徴抽出へ向ける分離エンコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダ(DED)デコンダデコーダデコンダデコーダデコーダデコーダデコンダデコーダ(DED) の4つのキーコンポーネントを統合する。
7つの主流データセットの実験によると、HiMTMは最先端の自己教師とエンドツーエンドの学習手法を3.16-68.54%上回っている。
論文 参考訳(メタデータ) (2024-01-10T09:00:03Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition [13.15374205970988]
本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
論文 参考訳(メタデータ) (2022-06-27T03:17:33Z) - Video Instance Segmentation via Multi-scale Spatio-temporal Split
Attention Transformer [77.95612004326055]
ビデオセグメンテーション(VIS)アプローチは通常、注意計算中に単一スケールの時間的特徴またはフレームごとのマルチスケール特徴のいずれかを利用する。
エンコーダにMS-STSアテンションモジュールを組み込んだトランスフォーマーベースのVISフレームワークMS-STS VISを提案する。
MS-STSモジュールは、ビデオ内のフレームをまたいだ複数のスケールにおける分割時間的特徴関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2022-03-24T17:59:20Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。