論文の概要: Decoupling Spatio-Temporal Adapter for Fine-Grained Badminton Action Localization
- arxiv url: http://arxiv.org/abs/2605.23355v1
- Date: Fri, 22 May 2026 08:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.260236
- Title: Decoupling Spatio-Temporal Adapter for Fine-Grained Badminton Action Localization
- Title(参考訳): ファイングラインドバドミントン行動局在のための時空間適応器のデカップリング
- Authors: Tianyu Wang, Junjie Wu, Jingquan Gao, Shishuo Li,
- Abstract要約: 我々は、プロフェッショナルなバドミントンビデオにおける詳細なTALシナリオに注目し、新しいベンチマークデータセットを導入する。
本稿では,パラメータ効率の高いフレームワーク内での時間的特徴の効率的なモデリングを可能にするデカップリング時空間適応器(DSTA)を提案する。
Fine-Badminton と ShuttleSet のベンチマーク実験により,提案手法が最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 7.458716725734328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Action Localization (TAL) has been extensively studied in generic video understanding, while fine-grained sports scenarios, such as professional badminton, remain underexplored due to their complex and subtle spatio-temporal dynamics. In this paper, we focus on fine-grained TAL in professional badminton videos and introduce a new benchmark dataset, Fine-Badminton, which consists of 31 matches with 29 fine-grained stroke categories, covering 2104 rallies and 27597 annotated actions. To effectively capture the intricate motion patterns in such scenarios, we propose a Decoupling Spatio-Temporal Adapter (DSTA), which enables efficient modeling of spatio-temporal features within a parameter-efficient framework. Specifically, DSTA decomposes motion representation into three parallel branches, capturing temporal dynamics as well as vertical and horizontal spatial variations. The design allows the model to better distinguish subtle differences among fine-grained actions. Extensive experiments on both the Fine-Badminton dataset and the ShuttleSet benchmark demonstrate that the proposed method achieves state-of-the-art performance while introducing only a marginal increase in computational and parameter cost. These results validate the effectiveness and efficiency of the proposed approach for fine-grained temporal action localization.
- Abstract(参考訳): 時間的行動ローカライゼーション(TAL)は、一般的なビデオ理解において広く研究されてきたが、プロのバドミントンのような細かいスポーツシナリオは、複雑で微妙な時空間的ダイナミクスのために未探索のままである。
本稿では,プロのバドミントンビデオにおける細粒度talに着目し,31の一致と29の細粒度ストロークカテゴリからなるベンチマークデータセットであるFine-Badmintonを導入し,2104のアリーと27597のアノテートアクションをカバーした。
このようなシナリオにおける複雑な動きパターンを効果的に捉えるために、パラメータ効率のよいフレームワーク内での時空間特徴の効率的なモデリングを可能にするDecoupling Spatio-Temporal Adapter (DSTA)を提案する。
具体的には、DSTAは動きの表現を3つの平行な分岐に分解し、縦方向と水平方向の空間変動と同様に時間的ダイナミクスを捉える。
この設計により、モデルはきめ細かいアクションの微妙な違いをよりよく区別することができる。
ファイン・バドミントン・データセットとShuttleSetベンチマークの総合的な実験により,提案手法が最先端性能を達成するとともに,計算コストとパラメータコストの限界的な増加しか示さないことを示した。
提案手法の有効性と有効性の検証を行った。
関連論文リスト
- UTAL-GNN: Unsupervised Temporal Action Localization using Graph Neural Networks [0.0]
非トリミングスポーツビデオにおける微粒なアクションローカライゼーションは、迅速かつ微妙な動き遷移のために重大な課題を呈している。
既存の教師付きおよび弱教師付きソリューションは、しばしば広範なデータセットと高容量モデルに依存し、計算集約的で現実世界のシナリオに適応できない。
提案手法では,ブロックワイドパーティションを付加したポーズ列を付加したアテンションベースの時空間グラフ畳み込みネットワーク(ASTGCN)を事前学習する。
DSVダイビングデータセット上で平均平均平均精度(mAP)82.66%、平均遅延局所化29.09msを達成する。
論文 参考訳(メタデータ) (2025-08-27T07:51:02Z) - EMoTive: Event-guided Trajectory Modeling for 3D Motion Estimation [59.33052312107478]
イベントカメラは、シーン変化に対する連続的適応ピクセルレベル応答による3次元モーション推定の可能性を提供する。
本稿では,イベント誘導パラメトリック曲線を用いた一様軌道をモデル化するイベントベースフレームワークであるEMoveについて述べる。
動作表現には,事象誘導下での空間的特徴と時間的特徴を融合する密度認識適応機構を導入する。
最終3次元運動推定は、パラメトリック軌道、流れ、深度運動場の多時間サンプリングによって達成される。
論文 参考訳(メタデータ) (2025-03-14T13:15:54Z) - TacticExpert: Spatial-Temporal Graph Language Model for Basketball Tactics [0.0]
バスケットボールの戦術モデリングは、歴史的データから複雑な空間的依存関係を効率的に抽出する必要がある。
既存の最先端(SOTA)モデルは、主にグラフニューラルネットワーク(GNN)に基づいており、長期的な、長距離、きめ細かい相互作用を捉えるのに苦労している。
論文 参考訳(メタデータ) (2025-03-13T08:27:24Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - DynMF: Neural Motion Factorization for Real-time Dynamic View Synthesis with 3D Gaussian Splatting [31.75611852583603]
動的シーンの点当たりの運動は、明示的あるいは学習的な軌跡の小さなセットに分解することができると論じる。
我々の表現は解釈可能であり、効率的であり、複雑な動的シーンの動きのリアルタイムなビュー合成を提供するのに十分な表現力を持っている。
論文 参考訳(メタデータ) (2023-11-30T18:59:11Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。
動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文 参考訳(メタデータ) (2022-09-26T01:36:22Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。