論文の概要: T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in Sports Videos
- arxiv url: http://arxiv.org/abs/2404.05392v2
- Date: Thu, 11 Apr 2024 13:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 17:56:32.751988
- Title: T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in Sports Videos
- Title(参考訳): T-DEED:スポーツビデオにおける精密イベントスポッティングのための時間識別エンコーダデコーダ
- Authors: Artur Xarles, Sergio Escalera, Thomas B. Moeslund, Albert Clapés,
- Abstract要約: T-DEED(T-DEED)は、スポーツビデオにおける精密イベントスポッティングのためのテンポラル・ディスクリミナビリティ・エンハンサー・デコーダである。
フレーム表現間の識別性の必要性、高い出力時間分解能、異なる時間スケールで情報を取得する必要性に対処する。
FigureSkating と FineDiving のデータセット上で SOTA のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 45.560172973071474
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce T-DEED, a Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in sports videos. T-DEED addresses multiple challenges in the task, including the need for discriminability among frame representations, high output temporal resolution to maintain prediction precision, and the necessity to capture information at different temporal scales to handle events with varying dynamics. It tackles these challenges through its specifically designed architecture, featuring an encoder-decoder for leveraging multiple temporal scales and achieving high output temporal resolution, along with temporal modules designed to increase token discriminability. Leveraging these characteristics, T-DEED achieves SOTA performance on the FigureSkating and FineDiving datasets. Code is available at https://github.com/arturxe2/T-DEED.
- Abstract(参考訳): 本稿では,スポーツビデオにおける精密イベントスポッティングのためのテンポラル識別エンハンサエンコーダ・デコーダであるT-DEEDを紹介する。
T-DEEDは、フレーム表現間の識別可能性の必要性、予測精度を維持するための高出力時間分解能、様々な時間スケールで情報をキャプチャして様々な動的イベントを扱う必要性など、タスクにおける複数の課題に対処する。
複数の時間スケールを活用して高出力の時間分解能を実現するエンコーダデコーダと、トークン識別性を高めるために設計された時間モジュールを備える。
これらの特徴を活用して、T-DEEDはFinalSkatingおよびFineDivingデータセット上でSOTAのパフォーマンスを達成する。
コードはhttps://github.com/arturxe2/T-DEEDで公開されている。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration [9.547947845734992]
イベントカメラはバイオインスパイアされたセンサーで、強度の変化を非同期に捉え、イベントストリームを出力する。
本稿では, PAST-Act と呼ばれる新しいフレームワークを提案する。
私たちはまた、コミュニティの利益のために任意の期間で、ArDVS100という名前の分レベルのイベントベースの認識データセットを構築しました。
論文 参考訳(メタデータ) (2024-09-25T14:08:37Z) - FADE: A Task-Agnostic Upsampling Operator for Encoder-Decoder Architectures [18.17019371324024]
FADEは、新しくて、プラグアンドプレイで、軽量で、タスクに依存しないアップサンプリングオペレータである。
FADEはタスク非依存であり,多くの密集予測タスクにおいて一貫した性能向上を示す。
リージョンとディテールに敏感なタスクの両方で,ロバストな機能アップサンプリングを初めて実施しました。
論文 参考訳(メタデータ) (2024-07-18T13:32:36Z) - DyFADet: Dynamic Feature Aggregation for Temporal Action Detection [70.37707797523723]
カーネル重みと受容フィールドを異なるタイムスタンプで適応できる新しい動的特徴集約(DFA)モジュールを構築した。
DFAを使用することで動的DADヘッド(DyHead)の開発を支援し、パラメータを調整したマルチスケール機能を適応的に集約する。
新しい動的TADモデルであるDyFADetは、一連の挑戦的なTADベンチマークで有望なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-03T15:29:10Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Event-LSTM: An Unsupervised and Asynchronous Learning-based
Representation for Event-based Data [8.931153235278831]
イベントカメラは、アクティビティ駆動のバイオインスパイアされたビジョンセンサーです。
LSTM層からなる教師なしオートエンコーダアーキテクチャであるEvent-LSTMを提案する。
また、最先端のイベントをデノージングプロセスにメモリを導入することで、デノージングを前進させます。
論文 参考訳(メタデータ) (2021-05-10T09:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。