論文の概要: SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset
- arxiv url: http://arxiv.org/abs/2405.07354v1
- Date: Sun, 12 May 2024 18:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 15:24:35.413838
- Title: SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset
- Title(参考訳): SoccerNet-Echoes: サッカーゲームのオーディオ解説データセット
- Authors: Sushant Gautam, Mehdi Houshmand Sarkhoosh, Jan Held, Cise Midoglu, Anthony Cioppa, Silvio Giancola, Vajira Thambawita, Michael A. Riegler, Pål Halvorsen, Mubarak Shah,
- Abstract要約: 本稿では,サッカーゲーム放送からの音声コメントの自動書き起こしによる,サッカーネットデータセットの拡張であるFocoNet-Echoesについて述べる。
視覚的および聴覚的コンテンツとともにテキストデータを組み込むことで、サッカーゲームのダイナミクスを捉えるアルゴリズムを開発するための総合的なリソースとなることを目的としている。
- 参考スコア(独自算出の注目度): 46.60191376520379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of Automatic Speech Recognition (ASR) technology in soccer offers numerous opportunities for sports analytics. Specifically, extracting audio commentaries with ASR provides valuable insights into the events of the game, and opens the door to several downstream applications such as automatic highlight generation. This paper presents SoccerNet-Echoes, an augmentation of the SoccerNet dataset with automatically generated transcriptions of audio commentaries from soccer game broadcasts, enhancing video content with rich layers of textual information derived from the game audio using ASR. These textual commentaries, generated using the Whisper model and translated with Google Translate, extend the usefulness of the SoccerNet dataset in diverse applications such as enhanced action spotting, automatic caption generation, and game summarization. By incorporating textual data alongside visual and auditory content, SoccerNet-Echoes aims to serve as a comprehensive resource for the development of algorithms specialized in capturing the dynamics of soccer games. We detail the methods involved in the curation of this dataset and the integration of ASR. We also highlight the implications of a multimodal approach in sports analytics, and how the enriched dataset can support diverse applications, thus broadening the scope of research and development in the field of sports analytics.
- Abstract(参考訳): サッカーにおける自動音声認識(ASR)技術の応用は、スポーツ分析に多くの機会を提供する。
具体的には、ASRでオーディオコメンタリーを抽出することで、ゲームのイベントに関する貴重な洞察を与え、自動ハイライト生成などの下流アプリケーションへの扉を開く。
本稿では,サッカーゲーム放送から音声コメントを自動的に書き起こし,ASRを用いてゲーム音声から派生したリッチなテキスト情報を用いて映像コンテンツを拡張した,サッカーネットデータセットの強化について述べる。
Whisperモデルを使用して生成され、Google Translateで翻訳されたこれらのテキストコメンタリーは、アクションスポッティングの強化、自動キャプション生成、ゲーム要約など、さまざまなアプリケーションにおける SoccerNetデータセットの有用性を拡張している。
視覚的および聴覚的コンテンツとともにテキストデータを組み込むことで、サッカーゲームのダイナミクスを捉えるアルゴリズムを開発するための総合的なリソースとなることを目的としている。
本稿では,このデータセットのキュレーションとASRの統合に関わる手法について詳述する。
また,スポーツ分析におけるマルチモーダルなアプローチの意義と,リッチなデータセットが多様なアプリケーションをどのようにサポートするかを強調し,スポーツ分析の分野における研究と開発の範囲を広げる。
関連論文リスト
- A Toolchain for Comprehensive Audio/Video Analysis Using Deep Learning Based Multimodal Approach (A use case of riot or violent context detection) [40.20142677441689]
深層学習に基づくマルチモーダルアプローチを利用して,包括的音声・ビデオ分析のためのツールチェーンを提案する。
個々のタスクを組み合わせて、入力されたビデオから抽出されたオーディオデータと視覚データの両方を分析することで、ツールチェーンは様々なオーディオ/ビデオベースのアプリケーションを提供する。
論文 参考訳(メタデータ) (2024-05-02T07:34:31Z) - Video-CSR: Complex Video Digest Creation for Visual-Language Models [71.66614561702131]
実世界のビデオクリップのキャプションや要約を生成する視覚言語モデルの性能を評価するための新しいタスクと人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の4.8KのYouTubeビデオクリップが含まれており、幅広いトピックや興味をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - A Multi-stage deep architecture for summary generation of soccer videos [11.41978608521222]
本稿では,音声メタデータとイベントメタデータの両方を利用して,サッカーの試合の要約を生成する手法を提案する。
その結果,提案手法は一致の動作を検出し,どの動作が要約に属するべきかを識別し,複数の候補要約を提案する。
論文 参考訳(メタデータ) (2022-05-02T07:26:35Z) - MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and
GENeration [46.19536568693307]
マルチモーダルなビデオオーディオテキスト理解と生成は、狭いがリッチなデータセットの恩恵を受けることができる。
本稿では,オープンソースのプラットフォームゲームCoinRunを用いて収集した大規模ビデオオーディオテキストデータセットMUGENについて述べる。
我々は375Kビデオクリップ(それぞれ3.2秒)をサンプリングし、人間のアノテーションからテキスト記述を収集する。
論文 参考訳(メタデータ) (2022-04-17T17:59:09Z) - SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of
Broadcast Soccer Videos [71.72665910128975]
SoccerNet-v2 は SoccerNet ビデオデータセット用の手動アノテーションの大規模なコーパスである。
SoccerNetの500の未トリミングサッカービデオの中で、約300万のアノテーションをリリースしています。
サッカーの領域における現在のタスクを拡張し、アクションスポッティング、カメラショットセグメンテーション、境界検出を含む。
論文 参考訳(メタデータ) (2020-11-26T16:10:16Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。