論文の概要: A Simple and Effective Temporal Grounding Pipeline for Basketball Broadcast Footage
- arxiv url: http://arxiv.org/abs/2411.00862v1
- Date: Wed, 30 Oct 2024 17:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:28:24.798045
- Title: A Simple and Effective Temporal Grounding Pipeline for Basketball Broadcast Footage
- Title(参考訳): バスケットボール放送フットージのための簡易かつ効果的な時間的接地パイプライン
- Authors: Levi Harris,
- Abstract要約: バスケットボール放送映像の映像から分析的アライメントのための信頼性の高い時間的グラウンドパイプラインを提案する。
本手法は,ビデオフレームに高密度なイベントアノテーションを含むプレイバイプレイアノテーションのラベル付きコーパスを調整し,ラベル付きビデオセグメントの迅速な検索を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present a reliable temporal grounding pipeline for video-to-analytic alignment of basketball broadcast footage. Given a series of frames as input, our method quickly and accurately extracts time-remaining and quarter values from basketball broadcast scenes. Our work intends to expedite the development of large, multi-modal video datasets to train data-hungry video models in the sports action recognition domain. Our method aligns a pre-labeled corpus of play-by-play annotations containing dense event annotations to video frames, enabling quick retrieval of labeled video segments. Unlike previous methods, we forgo the need to localize game clocks by fine-tuning an out-of-the-box object detector to find semantic text regions directly. Our end-to-end approach improves the generality of our work. Additionally, interpolation and parallelization techniques prepare our pipeline for deployment in a large computing cluster. All code is made publicly available.
- Abstract(参考訳): バスケットボール放送映像の映像から分析的アライメントのための信頼性の高い時間的グラウンドパイプラインを提案する。
入力として一連のフレームが与えられると,バスケットボールの放送シーンから時間と4分の1の値を迅速かつ正確に抽出する。
本研究は,スポーツ行動認識領域における大規模マルチモーダルビデオデータセットの開発を迅速化することを目的としている。
本手法は,ビデオフレームに高密度なイベントアノテーションを含むプレイバイプレイアノテーションのラベル付きコーパスを調整し,ラベル付きビデオセグメントの迅速な検索を可能にする。
従来の方法とは違って,ゲームクロックのローカライズは,アウトオブボックスオブジェクト検出器を微調整して意味テキスト領域を直接検索することで行う必要がある。
エンドツーエンドのアプローチは、作業の汎用性を改善します。
さらに、補間および並列化技術は、大規模コンピューティングクラスタでのデプロイメントのためのパイプラインを準備します。
すべてのコードは公開されています。
関連論文リスト
- Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring [76.54162653678871]
本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Event-Based Frame Interpolation with Ad-hoc Deblurring [68.97825675372354]
本稿では,入力ビデオのアドホックを損なうイベントベースフレームの一般的な手法を提案する。
我々のネットワークは、フレーム上の最先端の手法、単一画像のデブロアリング、および共同作業のデブロアリングを一貫して上回ります。
コードとデータセットは公開されます。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Video Instance Segmentation by Instance Flow Assembly [23.001856276175506]
箱のない特徴を扱うボトムアップ手法は、フレーム間の正確な空間的相関を提供する。
フレーム間の相関関係をよりよくエンコードするための時間的コンテキスト融合モジュールを備えたフレームワークを提案する。
実験により、提案手法は、挑戦的なYoutube-VISデータセット上で、最先端のオンライン手法(画像レベルの入力を取る)よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-20T14:49:28Z) - No frame left behind: Full Video Action Recognition [26.37329995193377]
我々は全映像の動作認識を提案し,全映像のフレームを考察する。
まず、時間次元に沿って全てのフレームアクティベーションをクラスタ化する。
次に、時間的にクラスタ内のフレームをより少ない数の表現に集約する。
論文 参考訳(メタデータ) (2021-03-29T07:44:28Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions [14.30009544149561]
スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-13T19:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。