論文の概要: Distantly Supervised Semantic Text Detection and Recognition for
Broadcast Sports Videos Understanding
- arxiv url: http://arxiv.org/abs/2111.00629v1
- Date: Sun, 31 Oct 2021 23:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 15:02:46.943742
- Title: Distantly Supervised Semantic Text Detection and Recognition for
Broadcast Sports Videos Understanding
- Title(参考訳): 放送スポーツ映像理解のための遠隔教師付き意味テキスト検出と認識
- Authors: Avijit Shah, Topojoy Biswas, Sathish Ramadoss, Deven Santosh Shah
- Abstract要約: スポーツクロックにおける極めて正確な意味テキストの検出と認識について検討する。
本稿では,スポーツクロックのデータセットを自動構築する遠隔監視手法を提案する。
私たちは、このシステムを産業環境でスケールするために、計算アーキテクチャパイプラインを共有します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Comprehensive understanding of key players and actions in multiplayer sports
broadcast videos is a challenging problem. Unlike in news or finance videos,
sports videos have limited text. While both action recognition for multiplayer
sports and detection of players has seen robust research, understanding
contextual text in video frames still remains one of the most impactful avenues
of sports video understanding. In this work we study extremely accurate
semantic text detection and recognition in sports clocks, and challenges
therein. We observe unique properties of sports clocks, which makes it hard to
utilize general-purpose pre-trained detectors and recognizers, so that text can
be accurately understood to the degree of being used to align to external
knowledge. We propose a novel distant supervision technique to automatically
build sports clock datasets. Along with suitable data augmentations, combined
with any state-of-the-art text detection and recognition model architectures,
we extract extremely accurate semantic text. Finally, we share our
computational architecture pipeline to scale this system in industrial setting
and proposed a robust dataset for the same to validate our results.
- Abstract(参考訳): マルチプレイヤースポーツ放送ビデオにおけるキープレイヤーとアクションの包括的理解は難しい課題である。
ニュースや金融ビデオとは異なり、スポーツビデオはテキストが限られている。
マルチプレイヤースポーツのアクション認識とプレイヤーの検出の両方が堅牢に研究されているが、ビデオフレームのコンテキストテキストを理解することはスポーツビデオ理解の最も影響のある方法の1つだ。
本研究では,スポーツ時計における極めて正確な意味的テキスト検出と認識について検討し,課題を提起する。
スポーツ時計のユニークな特性を観察し,汎用の事前学習型検出器や認識器の活用を困難にし,外部知識に適合する程度で文章を正確に理解できるようにする。
本稿では,スポーツクロックのデータセットを自動構築する遠隔監視手法を提案する。
適切なデータ拡張と、最先端のテキスト検出および認識モデルアーキテクチャを組み合わせることで、極めて正確なセマンティックテキストを抽出する。
最後に、このシステムを産業環境でスケールアップするための計算アーキテクチャパイプラインを共有し、その結果を検証するための堅牢なデータセットを提案する。
関連論文リスト
- Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video [5.885902974241053]
複雑なスポーツシナリオに対する推論は、現在のNLP技術にとって大きな課題となっている。
我々の評価は、基本的なルールや歴史的事実に関する単純なクエリから、複雑な文脈固有の推論まで多岐にわたる。
既存のスポーツデータセットの包括的概要に基づく新しいベンチマークを提案し,広範なエラー解析を行った。
論文 参考訳(メタデータ) (2024-06-21T05:57:50Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching [77.0306273129475]
ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を提示する。
GoMatchingは、強力な認識性能を維持しながら、トラッキングのトレーニングに重点を置いている。
GoMatchingは、ICDAR15ビデオ、DSText、BOVTextに新しいレコードを提供し、ArTVideoと呼ばれる任意の形のテキストを用いた新しいテストを提案しました。
論文 参考訳(メタデータ) (2024-01-13T13:59:15Z) - Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex
and Professional Sports [90.79212954022218]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。
Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。
質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文 参考訳(メタデータ) (2024-01-03T02:22:34Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z) - A Survey on Video Action Recognition in Sports: Datasets, Methods and
Applications [60.3327085463545]
本稿では,スポーツ分析のための映像行動認識に関する調査を行う。
サッカー、バスケットボール、バレーボール、ホッケー、フィギュアスケート、体操、卓球、ダイビング、バドミントンなど10種以上のスポーツを紹介します。
本研究では,サッカー,バスケットボール,卓球,フィギュアスケート動作認識をサポートするPaddlePaddleを用いたツールボックスを開発した。
論文 参考訳(メタデータ) (2022-06-02T13:19:36Z) - A New Action Recognition Framework for Video Highlights Summarization in
Sporting Events [9.870478438166288]
YOLO-v3とOpenPoseという2つの古典的オープンソース構造に基づく3レベル予測アルゴリズムを用いて,スポーツビデオストリームを自動的にクリップするフレームワークを提案する。
その結果,スポーツ映像のトレーニングデータを用いて,スポーツ活動のハイライトを正確に行うことができることがわかった。
論文 参考訳(メタデータ) (2020-12-01T04:14:40Z) - SoccerNet-v2: A Dataset and Benchmarks for Holistic Understanding of
Broadcast Soccer Videos [71.72665910128975]
SoccerNet-v2 は SoccerNet ビデオデータセット用の手動アノテーションの大規模なコーパスである。
SoccerNetの500の未トリミングサッカービデオの中で、約300万のアノテーションをリリースしています。
サッカーの領域における現在のタスクを拡張し、アクションスポッティング、カメラショットセグメンテーション、境界検出を含む。
論文 参考訳(メタデータ) (2020-11-26T16:10:16Z) - Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions [14.30009544149561]
スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-13T19:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。