論文の概要: Feature Combination Meets Attention: Baidu Soccer Embeddings and
Transformer based Temporal Detection
- arxiv url: http://arxiv.org/abs/2106.14447v1
- Date: Mon, 28 Jun 2021 08:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 21:54:13.962785
- Title: Feature Combination Meets Attention: Baidu Soccer Embeddings and
Transformer based Temporal Detection
- Title(参考訳): 特徴の組み合わせが注目される - baidu soccer embeddedsとtransformer based temporal detection
- Authors: Xin Zhou, Le Kang, Zhiyu Cheng, Bo He, Jingyu Xin
- Abstract要約: 本稿では,サッカー中継ビデオにおけるイベントの発生状況と発生状況を検出するための2段階のパラダイムを提案する。
具体的には,サッカーデータ上に複数のアクション認識モデルを微調整し,ハイレベルなセマンティックな特徴を抽出する。
このアプローチは、サッカーネットv2チャレンジにおける2つのタスク、すなわちアクションスポッティングとリプレイグラウンドにおいて、最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 3.7709686875144337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With rapidly evolving internet technologies and emerging tools, sports
related videos generated online are increasing at an unprecedentedly fast pace.
To automate sports video editing/highlight generation process, a key task is to
precisely recognize and locate the events in the long untrimmed videos. In this
tech report, we present a two-stage paradigm to detect what and when events
happen in soccer broadcast videos. Specifically, we fine-tune multiple action
recognition models on soccer data to extract high-level semantic features, and
design a transformer based temporal detection module to locate the target
events. This approach achieved the state-of-the-art performance in both two
tasks, i.e., action spotting and replay grounding, in the SoccerNet-v2
Challenge, under CVPR 2021 ActivityNet workshop. Our soccer embedding features
are released at https://github.com/baidu-research/vidpress-sports. By sharing
these features with the broader community, we hope to accelerate the research
into soccer video understanding.
- Abstract(参考訳): 急速に進化するインターネット技術と新興ツールによって、オンラインで生成されたスポーツ関連ビデオは前例のないペースで増えている。
スポーツ映像編集/ハイライト生成プロセスを自動化するために、キータスクは、長い未撮影映像のイベントを正確に認識し、特定することである。
本報告では,サッカー中継映像におけるイベントの発生状況と発生時期を検出する2段階のパラダイムを提案する。
具体的には,サッカーデータ上に複数の行動認識モデルを微調整し,高レベルの意味的特徴を抽出し,目標イベントを特定するための変圧器に基づく時間検出モジュールを設計する。
このアプローチは,CVPR 2021 ActivityNetワークショップにおいて,アクションスポッティングとリプレイグラウンドングという2つのタスクで最先端のパフォーマンスを達成した。
サッカー埋め込み機能はhttps://github.com/baidu-research/vidpress-sportsでリリースしています。
これらの機能をより広いコミュニティと共有することで、サッカービデオ理解の研究を加速したいと思っています。
関連論文リスト
- Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - A Graph-Based Method for Soccer Action Spotting Using Unsupervised
Player Classification [75.93186954061943]
アクションスポッティングには、ゲームのダイナミクス、イベントの複雑さ、ビデオシーケンスのバリエーションを理解することが含まれる。
本研究では, (a) 選手, 審判, ゴールキーパーをグラフのノードとして識別し, および (b) 時間的相互作用をグラフのシーケンスとしてモデル化することによって, 前者に焦点を当てる。
プレーヤ識別タスクでは,他のモダリティと組み合わせることで,平均mAPの57.83%の総合的な性能が得られる。
論文 参考訳(メタデータ) (2022-11-22T15:23:53Z) - A Multi-stage deep architecture for summary generation of soccer videos [11.41978608521222]
本稿では,音声メタデータとイベントメタデータの両方を利用して,サッカーの試合の要約を生成する手法を提案する。
その結果,提案手法は一致の動作を検出し,どの動作が要約に属するべきかを識別し,複数の候補要約を提案する。
論文 参考訳(メタデータ) (2022-05-02T07:26:35Z) - SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in
Soccer Videos [62.686484228479095]
本稿では,各30の200列からなる複数物体追跡のための新しいデータセットを提案する。
データセットは、バウンディングボックスとトラックレットIDで完全に注釈付けされている。
分析の結果,サッカービデオにおける複数の選手,審判,ボール追跡が解決されるには程遠いことがわかった。
論文 参考訳(メタデータ) (2022-04-14T12:22:12Z) - MMSys'22 Grand Challenge on AI-based Video Production for Soccer [2.14475390920102]
この課題は、AIを使用した運用パイプラインの自動化を支援することにある。
特に,イベント検出後に発生する拡張操作に注目した。
論文 参考訳(メタデータ) (2022-02-02T13:53:42Z) - Smart Director: An Event-Driven Directing System for Live Broadcasting [110.30675947733167]
Smart Directorは、典型的な人間向けブロードキャストプロセスを模倣して、ほぼ専門的なブロードキャストプログラムをリアルタイムで自動的に作成することを目指している。
本システムは,マルチカメラスポーツ放送における初のエンドツーエンド自動指向システムである。
論文 参考訳(メタデータ) (2022-01-11T16:14:41Z) - Temporally-Aware Feature Pooling for Action Spotting in Soccer
Broadcasts [86.56462654572813]
私たちは、サッカーの試合の主なアクションを一時的にローカライズするサッカー放送におけるアクションスポッティングの分析に焦点を当てています。
時間的知識を組み込んだNetVLAD++という,NetVLADに基づく新たな機能プーリング手法を提案する。
我々は最近の大規模データセット SoccerNet-v2 の方法論をトレーニングし、評価し、アクションスポッティングのための平均平均mAP 53.4% に達した。
論文 参考訳(メタデータ) (2021-04-14T11:09:03Z) - SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of
Broadcast Soccer Videos [71.72665910128975]
SoccerNet-v2 は SoccerNet ビデオデータセット用の手動アノテーションの大規模なコーパスである。
SoccerNetの500の未トリミングサッカービデオの中で、約300万のアノテーションをリリースしています。
サッカーの領域における現在のタスクを拡張し、アクションスポッティング、カメラショットセグメンテーション、境界検出を含む。
論文 参考訳(メタデータ) (2020-11-26T16:10:16Z) - Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions [14.30009544149561]
スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-13T19:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。