論文の概要: Sports Video Analysis on Large-Scale Data
- arxiv url: http://arxiv.org/abs/2208.04897v1
- Date: Tue, 9 Aug 2022 16:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:44:11.830373
- Title: Sports Video Analysis on Large-Scale Data
- Title(参考訳): 大規模データを用いたスポーツビデオ解析
- Authors: Dekun Wu and He Zhao and Xingce Bao and Richard P. Wildes
- Abstract要約: 本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
- 参考スコア(独自算出の注目度): 10.24207108909385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the modeling of automated machine description on
sports video, which has seen much progress recently. Nevertheless,
state-of-the-art approaches fall quite short of capturing how human experts
analyze sports scenes. There are several major reasons: (1) The used dataset is
collected from non-official providers, which naturally creates a gap between
models trained on those datasets and real-world applications; (2) previously
proposed methods require extensive annotation efforts (i.e., player and ball
segmentation at pixel level) on localizing useful visual features to yield
acceptable results; (3) very few public datasets are available. In this paper,
we propose a novel large-scale NBA dataset for Sports Video Analysis (NSVA)
with a focus on captioning, to address the above challenges. We also design a
unified approach to process raw videos into a stack of meaningful features with
minimum labelling efforts, showing that cross modeling on such features using a
transformer architecture leads to strong performance. In addition, we
demonstrate the broad application of NSVA by addressing two additional tasks,
namely fine-grained sports action recognition and salient player
identification. Code and dataset are available at
https://github.com/jackwu502/NSVA.
- Abstract(参考訳): 本稿では,近年,スポーツビデオにおける自動機械記述のモデル化について検討する。
しかし、最先端のアプローチは、人間の専門家がスポーツシーンをどのように分析するかを捉えていない。
1) 使用済みデータセットは非公式プロバイダから収集され,それらのデータセットと実世界のアプリケーションで訓練されたモデル間のギャップを自然に生み出す。(2) これまで提案された手法は,有効な視覚的特徴をローカライズして許容可能な結果を得る上で,広範なアノテーション(例えば,ピクセルレベルでのプレーヤとボールセグメンテーション)を必要とする。
本稿では,これらの課題に対処するために,キャプションに着目したスポーツビデオ解析のためのNBAデータセットを提案する。
また,raw動画を最小限のラベル付け作業で有意義な機能スタックに処理するための統一的なアプローチも設計し,トランスフォーマーアーキテクチャを用いたクロスモデリングが強力なパフォーマンスをもたらすことを示した。
さらに, nsvaの応用事例として, 細粒度スポーツアクション認識とプレーヤ識別という2つの課題について紹介する。
コードとデータセットはhttps://github.com/jackwu502/NSVAで入手できる。
関連論文リスト
- Benchmarking Badminton Action Recognition with a New Fine-Grained Dataset [16.407837909069073]
高品質なバドミントン映像から得られたビデオバドミントンデータセットを紹介する。
VideoBadmintonの導入は、バドミントンアクション認識だけでなく、きめ細かいアクションを認識するためのデータセットも提供する。
論文 参考訳(メタデータ) (2024-03-19T02:52:06Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos [64.57435509822416]
この作品は、ワールド・テーブルテニス選手権とオリンピアードのプロの卓球試合の放送ビデオから収集された2,721本のビデオクリップで構成されている。
強調局所化と強調認識という2つのアクション検出問題を定式化する。
その結果、TheNameは依然として困難なタスクであり、ビデオからの高密度なアクション検出のための特別なベンチマークとして使用できることを確認した。
論文 参考訳(メタデータ) (2022-07-26T08:34:17Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - EventAnchor: Reducing Human Interactions in Event Annotation of Racket
Sports Videos [26.516909452362455]
EventAnchorは、ラケットスポーツビデオのインタラクティブなアノテーションを容易にするデータ分析フレームワークである。
このアプローチでは,コンピュータビジョンにおける機械学習モデルを用いて,ユーザがビデオから重要なイベントを取得するのを支援する。
論文 参考訳(メタデータ) (2021-01-13T09:32:05Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions [14.30009544149561]
スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-13T19:51:25Z) - Fine-Grained Instance-Level Sketch-Based Video Retrieval [159.12935292432743]
細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-02-21T18:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。