Fugu-MT 論文翻訳(概要): Feature Combination Meets Attention: Baidu Soccer Embeddings and Transformer based Temporal Detection

論文の概要: Feature Combination Meets Attention: Baidu Soccer Embeddings and Transformer based Temporal Detection

arxiv url: http://arxiv.org/abs/2106.14447v1
Date: Mon, 28 Jun 2021 08:00:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-29 21:54:13.962785
Title: Feature Combination Meets Attention: Baidu Soccer Embeddings and Transformer based Temporal Detection
Title（参考訳）: 特徴の組み合わせが注目される - baidu soccer embeddedsとtransformer based temporal detection
Authors: Xin Zhou, Le Kang, Zhiyu Cheng, Bo He, Jingyu Xin
Abstract要約: 本稿では,サッカー中継ビデオにおけるイベントの発生状況と発生状況を検出するための2段階のパラダイムを提案する。具体的には,サッカーデータ上に複数のアクション認識モデルを微調整し,ハイレベルなセマンティックな特徴を抽出する。このアプローチは、サッカーネットv2チャレンジにおける2つのタスク、すなわちアクションスポッティングとリプレイグラウンドにおいて、最先端のパフォーマンスを達成した。
参考スコア（独自算出の注目度）: 3.7709686875144337
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With rapidly evolving internet technologies and emerging tools, sports related videos generated online are increasing at an unprecedentedly fast pace. To automate sports video editing/highlight generation process, a key task is to precisely recognize and locate the events in the long untrimmed videos. In this tech report, we present a two-stage paradigm to detect what and when events happen in soccer broadcast videos. Specifically, we fine-tune multiple action recognition models on soccer data to extract high-level semantic features, and design a transformer based temporal detection module to locate the target events. This approach achieved the state-of-the-art performance in both two tasks, i.e., action spotting and replay grounding, in the SoccerNet-v2 Challenge, under CVPR 2021 ActivityNet workshop. Our soccer embedding features are released at https://github.com/baidu-research/vidpress-sports. By sharing these features with the broader community, we hope to accelerate the research into soccer video understanding.
Abstract（参考訳）: 急速に進化するインターネット技術と新興ツールによって、オンラインで生成されたスポーツ関連ビデオは前例のないペースで増えている。スポーツ映像編集/ハイライト生成プロセスを自動化するために、キータスクは、長い未撮影映像のイベントを正確に認識し、特定することである。本報告では,サッカー中継映像におけるイベントの発生状況と発生時期を検出する2段階のパラダイムを提案する。具体的には,サッカーデータ上に複数の行動認識モデルを微調整し,高レベルの意味的特徴を抽出し,目標イベントを特定するための変圧器に基づく時間検出モジュールを設計する。このアプローチは,CVPR 2021 ActivityNetワークショップにおいて,アクションスポッティングとリプレイグラウンドングという2つのタスクで最先端のパフォーマンスを達成した。サッカー埋め込み機能はhttps://github.com/baidu-research/vidpress-sportsでリリースしています。これらの機能をより広いコミュニティと共有することで、サッカービデオ理解の研究を加速したいと思っています。

関連論文リスト

Action Anticipation from SoccerNet Football Video Broadcasts [84.87912817065506]
フットボール放送ビデオのアクション予測タスクについて紹介する。我々は、5秒または10秒の予測ウィンドウ内で、観測されていない将来のフレームにおける将来の動作を予測する。我々の研究は、自動放送、戦術分析、プレイヤーの意思決定における応用を可能にします。
論文参考訳（メタデータ） (2025-04-16T12:24:33Z)
Towards Universal Soccer Video Understanding [58.889409980618396]
本稿では,サッカー理解のための総合的マルチモーダルフレームワークを提案する。これまでで最大のマルチモーダルサッカーデータセットである SoccerReplay-1988 を紹介する。サッカービデオにまたがる時間的情報を活用し、様々な下流タスクに優れる高度なサッカー特化視覚情報であるMatchVisionを提示する。
論文参考訳（メタデータ） (2024-12-02T18:58:04Z)
Deep learning for action spotting in association football videos [64.10841325879996]
SoccerNetイニシアチブは毎年の課題を組織し、世界中の参加者が最先端のパフォーマンスを達成するために競う。本稿では,スポーツにおけるアクションスポッティングの歴史を,2018年の課題の創出から,現在の研究・スポーツ産業における役割まで遡る。
論文参考訳（メタデータ） (2024-10-02T07:56:15Z)
Investigating Event-Based Cameras for Video Frame Interpolation in Sports [59.755469098797406]
本稿では,スポーツスローモーションビデオを生成するためのイベントベースビデオフレーム補間(VFI)モデルについて検討する。特に,スポーツ映像を撮影するためのRGBとイベントベースカメラを含むバイカメラ記録装置の設計と実装を行い,両カメラの時間的整列と空間的登録を行う。実験により,市販のイベントベースVFIモデルであるTimeLensが,スポーツビデオのスローモーション映像を効果的に生成できることが実証された。
論文参考訳（メタデータ） (2024-07-02T15:39:08Z)
Towards Active Learning for Action Spotting in Association Football Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-04-09T11:50:41Z)
A Graph-Based Method for Soccer Action Spotting Using Unsupervised Player Classification [75.93186954061943]
アクションスポッティングには、ゲームのダイナミクス、イベントの複雑さ、ビデオシーケンスのバリエーションを理解することが含まれる。本研究では, (a) 選手, 審判, ゴールキーパーをグラフのノードとして識別し, および (b) 時間的相互作用をグラフのシーケンスとしてモデル化することによって, 前者に焦点を当てる。プレーヤ識別タスクでは,他のモダリティと組み合わせることで,平均mAPの57.83%の総合的な性能が得られる。
論文参考訳（メタデータ） (2022-11-22T15:23:53Z)
A Multi-stage deep architecture for summary generation of soccer videos [11.41978608521222]
本稿では,音声メタデータとイベントメタデータの両方を利用して,サッカーの試合の要約を生成する手法を提案する。その結果,提案手法は一致の動作を検出し,どの動作が要約に属するべきかを識別し,複数の候補要約を提案する。
論文参考訳（メタデータ） (2022-05-02T07:26:35Z)
MMSys'22 Grand Challenge on AI-based Video Production for Soccer [2.14475390920102]
この課題は、AIを使用した運用パイプラインの自動化を支援することにある。特に,イベント検出後に発生する拡張操作に注目した。
論文参考訳（メタデータ） (2022-02-02T13:53:42Z)
Smart Director: An Event-Driven Directing System for Live Broadcasting [110.30675947733167]
Smart Directorは、典型的な人間向けブロードキャストプロセスを模倣して、ほぼ専門的なブロードキャストプログラムをリアルタイムで自動的に作成することを目指している。本システムは,マルチカメラスポーツ放送における初のエンドツーエンド自動指向システムである。
論文参考訳（メタデータ） (2022-01-11T16:14:41Z)
SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of Broadcast Soccer Videos [71.72665910128975]
SoccerNet-v2 は SoccerNet ビデオデータセット用の手動アノテーションの大規模なコーパスである。 SoccerNetの500の未トリミングサッカービデオの中で、約300万のアノテーションをリリースしています。サッカーの領域における現在のタスクを拡張し、アクションスポッティング、カメラショットセグメンテーション、境界検出を含む。
論文参考訳（メタデータ） (2020-11-26T16:10:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。