論文の概要: Learning Sparse Temporal Video Mapping for Action Quality Assessment in
Floor Gymnastics
- arxiv url: http://arxiv.org/abs/2301.06103v1
- Date: Sun, 15 Jan 2023 14:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 17:21:34.717420
- Title: Learning Sparse Temporal Video Mapping for Action Quality Assessment in
Floor Gymnastics
- Title(参考訳): 床用体操選手の行動品質評価のための疎時間ビデオマッピングの学習
- Authors: Sania Zahan, Ghulam Mubashar Hassan, Ajmal Mian
- Abstract要約: 体操フロアルーチンを組み込んだ新しいデータセットAGF-Olympicsを導入する。
本稿では,密集した特徴空間を複素結合を解離してスパース表現にマッピングする識別的注意モジュールを提案する。
- 参考スコア(独自算出の注目度): 26.717033245063092
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Athlete performance measurement in sports videos requires modeling long
sequences since the entire spatio-temporal progression contributes dominantly
to the performance. It is crucial to comprehend local discriminative spatial
dependencies and global semantics for accurate evaluation. However, existing
benchmark datasets mainly incorporate sports where the performance lasts only a
few seconds. Consequently, state-ofthe-art sports quality assessment methods
specifically focus on spatial structure. Although they achieve high performance
in short-term sports, they are unable to model prolonged video sequences and
fail to achieve similar performance in long-term sports. To facilitate such
analysis, we introduce a new dataset, coined AGF-Olympics, that incorporates
artistic gymnastic floor routines. AFG-Olympics provides highly challenging
scenarios with extensive background, viewpoint, and scale variations over an
extended sample duration of up to 2 minutes. In addition, we propose a
discriminative attention module to map the dense feature space into a sparse
representation by disentangling complex associations. Extensive experiments
indicate that our proposed module provides an effective way to embed long-range
spatial and temporal correlation semantics.
- Abstract(参考訳): スポーツビデオにおけるアスリートのパフォーマンス測定は、時空間の進行がパフォーマンスに大きく寄与するため、長いシーケンスをモデル化する必要がある。
正確な評価のために,局所的差別的空間依存とグローバルセマンティクスを理解することが重要である。
しかし、既存のベンチマークデータセットは、パフォーマンスがわずか数秒で終わるスポーツを主に含んでいる。
その結果,スポーツ品質評価手法は特に空間構造に焦点をあてている。
短期スポーツでは高いパフォーマンスを達成するが、長時間のビデオシーケンスをモデル化できず、長期スポーツでは同様のパフォーマンスを達成できない。
このような分析を容易にするために,芸術的な体操フロアルーチンを組み込んだ新しいデータセットAGF-Olympicsを導入する。
AFG-Olympicsは、最大2分間のサンプル期間を延長して、幅広い背景、視点、スケールのバリエーションを持つ非常に困難なシナリオを提供する。
さらに,重み付き特徴空間を複素結合を解離してスパース表現にマッピングする識別的注意モジュールを提案する。
実験の結果,提案モジュールは長期空間的および時間的相関のセマンティクスを組み込む効果的な方法であることがわかった。
関連論文リスト
- Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame
Interpolation [11.198172694893927]
SportsSloMoは、130万本以上のビデオクリップと100万フレームの高解像度(720p)のスローモーションスポーツビデオがYouTubeからクロールされたベンチマークである。
ベンチマークでいくつかの最先端手法を再学習し、その結果、他のデータセットと比較して精度が低下していることを示す。
我々は,人間の認識する先行性を考慮した2つの損失項を導入し,汎視的セグメンテーションと人間のキーポイント検出に補助的監督を加える。
論文 参考訳(メタデータ) (2023-08-31T17:23:50Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized
Sports Actions [39.27858380391081]
本論文では、マルチスポーツとして作成された原子時間行動の新しいマルチパーソンデータセットを提示する。
4つのスポーツクラスを選択し、約3200のビデオクリップを収集し、37790のアクションインスタンスに907kバウンディングボックスをアノテートすることで、MultiSports v1.0のデータセットを構築します。
論文 参考訳(メタデータ) (2021-05-16T10:40:30Z) - Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。
本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。
空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-10-19T04:25:10Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions [14.30009544149561]
スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-13T19:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。