論文の概要: AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting
- arxiv url: http://arxiv.org/abs/2602.22073v1
- Date: Wed, 25 Feb 2026 16:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.904449
- Title: AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting
- Title(参考訳): AdaSpot: 正確なイベントスポッティングが重要か?
- Authors: Artur Xarles, Sergio Escalera, Thomas B. Moeslund, Albert Clapés,
- Abstract要約: イベントスポッティングは、スポーツ分析、ロボティクス、自律システムにおけるアプリケーションにとって重要なタスクである。
bfAdaSpotは厳格な評価基準の下で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 59.31340724915079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise Event Spotting aims to localize fast-paced actions or events in videos with high temporal precision, a key task for applications in sports analytics, robotics, and autonomous systems. Existing methods typically process all frames uniformly, overlooking the inherent spatio-temporal redundancy in video data. This leads to redundant computation on non-informative regions while limiting overall efficiency. To remain tractable, they often spatially downsample inputs, losing fine-grained details crucial for precise localization. To address these limitations, we propose \textbf{AdaSpot}, a simple yet effective framework that processes low-resolution videos to extract global task-relevant features while adaptively selecting the most informative region-of-interest in each frame for high-resolution processing. The selection is performed via an unsupervised, task-aware strategy that maintains spatio-temporal consistency across frames and avoids the training instability of learnable alternatives. This design preserves essential fine-grained visual cues with a marginal computational overhead compared to low-resolution-only baselines, while remaining far more efficient than uniform high-resolution processing. Experiments on standard PES benchmarks demonstrate that \textbf{AdaSpot} achieves state-of-the-art performance under strict evaluation metrics (\eg, $+3.96$ and $+2.26$ mAP$@0$ frames on Tennis and FineDiving), while also maintaining strong results under looser metrics. Code is available at: \href{https://github.com/arturxe2/AdaSpot}{https://github.com/arturxe2/AdaSpot}.
- Abstract(参考訳): 精密イベントスポッティング(Precise Event Spotting)は、スポーツアナリティクス、ロボティクス、自律システムにおいて重要なタスクである、時間的精度の高いビデオに、急激なペースでアクションやイベントをローカライズすることを目的としている。
既存の手法は、ビデオデータに固有の時空間冗長性を見渡して、すべてのフレームを一様に処理する。
これにより、非インフォーマティブ領域での冗長な計算が可能となり、全体的な効率が制限される。
抽出可能な状態を保つために、しばしば空間的に入力をサンプリングし、正確な位置決めに不可欠な細かい詳細を失う。
これらの制約に対処するために,低解像度動画を処理してグローバルなタスク関連特徴を抽出し,高解像度処理のために各フレームにおいて最も情報性の高い領域を適応的に選択する,シンプルで効果的なフレームワークである「textbf{AdaSpot}」を提案する。
選択は、フレーム間の時空間一貫性を維持し、学習可能な代替品のトレーニング不安定を回避する、教師なしのタスク認識戦略によって実行される。
この設計は、低分解能のみのベースラインに比べて計算オーバーヘッドの限界を保ちながら、一様の高分解能処理よりもはるかに効率的である。
標準的なPSSベンチマークの実験では、 \textbf{AdaSpot} は厳密な評価指標 (\eg, $+3.96$ and $+2.26$ mAP$@0$ frames on Tennis and FineDiving) の下で最先端のパフォーマンスを達成している。
コードは以下の通りである。 \href{https://github.com/arturxe2/AdaSpot}{https://github.com/arturxe2/AdaSpot}。
関連論文リスト
- CLIDD: Cross-Layer Independent Deformable Description for Efficient and Discriminative Local Feature Representation [6.478456907626643]
CLIDD (Cross-Layer Independent Deformable Description) は、独立な特徴階層から直接サンプリングすることで、優れた特徴性を実現する手法である。
リアルタイム性能を確保するため,ハードウェア対応のカーネル融合戦略を実装した。
軽量アーキテクチャとトレーニングプロトコルを統合するスケーラブルなフレームワークを開発する。
論文 参考訳(メタデータ) (2026-01-14T07:03:01Z) - PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization [50.75654397516163]
様々な解像度とモダリティに対応する統一フレームワークであるRelayFormerを提案する。
RelayFormerは、入力を固定サイズのサブイメージに分割し、Global-Local Relay(GLR)トークンを導入する。
これにより、セマンティックや時間的一貫性などのグローバルなキューを効率よく交換でき、きめ細かいアーティファクトを保存できる。
論文 参考訳(メタデータ) (2025-08-13T03:35:28Z) - AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。
重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。
textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-05-29T14:59:06Z) - Making Every Event Count: Balancing Data Efficiency and Accuracy in Event Camera Subsampling [13.283434521851998]
イベントカメラは、高時間分解能と電力効率を提供し、エッジAIアプリケーションに適している。
サブサンプリング手法は実用的な解法であるが、下流の視覚的タスクに対する効果は未解明のままである。
各種ベンチマークデータを用いて,イベントビデオ分類のためのハードウェアフレンドリーなサブサンプリング手法を6つ評価した。
論文 参考訳(メタデータ) (2025-05-27T13:37:08Z) - Towards Low-Latency Event Stream-based Visual Object Tracking: A Slow-Fast Approach [32.91982063297922]
我々は,SFTrackと呼ばれる,異なる運用要件に柔軟に対応する新しいスローファストトラッキングパラダイムを提案する。
提案するフレームワークは2つの補完モード,すなわち,十分な計算資源を持つシナリオを対象とした高精度なスロートラッカと,レイテンシを意識したリソース制約のある環境に適した効率的な高速トラッカをサポートする。
このフレームワークは,まず高時間分解能イベントストリームからグラフベースの表現学習を行い,学習したグラフ構造化情報を2つのFlashAttentionベースのビジョンバックボーンに統合する。
論文 参考訳(メタデータ) (2025-05-19T09:37:23Z) - Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition [82.75714185083383]
本稿では,映像理解におけるデータ冗長性の現象について検討し,計算効率の向上を目的とした。
この現象に触発され,AdaFocusと呼ばれる空間適応型ビデオ認識手法を導入する。
得られたフレームワークであるUni-AdaFocusは、シームレスに空間的、時間的、サンプルワイドな動的計算を統合する包括的なフレームワークを構築します。
論文 参考訳(メタデータ) (2024-12-15T15:51:44Z) - Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2021-04-06T10:32:03Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。