論文の概要: Automated Detection of Sport Highlights from Audio and Video Sources
- arxiv url: http://arxiv.org/abs/2501.16100v1
- Date: Mon, 27 Jan 2025 14:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:00.305862
- Title: Automated Detection of Sport Highlights from Audio and Video Sources
- Title(参考訳): 音源・映像からのスポーツハイライトの自動検出
- Authors: Francesco Della Santa, Morgana Lalli,
- Abstract要約: 本研究では,音声やビデオからスポーツハイライト(HL)を自動的に検出するための,Deep Learningベースで軽量なアプローチを提案する。
我々のソリューションは、比較的小さなオーディオ・メル・スペクトログラムとグレースケール・ビデオ・フレームのデータセットに基づいて訓練されたディープラーニング(DL)モデルを活用し、オーディオ・ビデオ検出において、それぞれ89%と83%の有望な精度を達成する。
提案手法は,各種スポーツビデオコンテンツを対象としたHL自動検出のためのスケーラブルなソリューションを提供し,手動介入の必要性を軽減した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study presents a novel Deep Learning-based and lightweight approach for the automated detection of sports highlights (HLs) from audio and video sources. HL detection is a key task in sports video analysis, traditionally requiring significant human effort. Our solution leverages Deep Learning (DL) models trained on relatively small datasets of audio Mel-spectrograms and grayscale video frames, achieving promising accuracy rates of 89% and 83% for audio and video detection, respectively. The use of small datasets, combined with simple architectures, demonstrates the practicality of our method for fast and cost-effective deployment. Furthermore, an ensemble model combining both modalities shows improved robustness against false positives and false negatives. The proposed methodology offers a scalable solution for automated HL detection across various types of sports video content, reducing the need for manual intervention. Future work will focus on enhancing model architectures and extending this approach to broader scene-detection tasks in media analysis.
- Abstract(参考訳): 本研究では,音声やビデオからスポーツハイライト(HL)を自動的に検出するための,Deep Learningベースで軽量なアプローチを提案する。
HL検出はスポーツビデオ分析において重要な課題であり、伝統的にかなりの人間の努力を必要とする。
我々のソリューションは、比較的小さなオーディオ・メル・スペクトログラムとグレースケール・ビデオ・フレームのデータセットに基づいて訓練されたディープラーニング(DL)モデルを活用し、オーディオ・ビデオ検出において、それぞれ89%と83%の有望な精度を達成する。
小さなデータセットと単純なアーキテクチャを組み合わせることで、我々の手法が高速でコスト効率のよいデプロイメントに有効であることを示す。
さらに、両方のモダリティを組み合わせたアンサンブルモデルでは、偽陽性と偽陰性に対する堅牢性が改善された。
提案手法は,各種スポーツビデオコンテンツを対象としたHL自動検出のためのスケーラブルなソリューションを提供し,手動介入の必要性を軽減した。
今後の研究は、モデルアーキテクチャの強化と、メディア分析におけるより広範なシーン検出タスクへのアプローチの拡張に焦点を当てる予定である。
関連論文リスト
- T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs [102.66246727371583]
そこで我々は,T2Vidと呼ばれるビデオライクなサンプルを合成し,学習コーパスの多様性を高める手法を開発した。
提案手法は,長いビデオサンプルをトレーニングすることなく,長いビデオ理解の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Advancing Automated Deception Detection: A Multimodal Approach to Feature Extraction and Analysis [0.0]
本研究は, 偽造検出モデルの精度を高めるために, 様々な特徴の抽出と組み合わせに焦点を当てる。
視覚、音声、テキストデータから特徴を体系的に抽出し、異なる組み合わせの実験を行うことで、印象的な99%の精度を達成できるロバストモデルを開発した。
論文 参考訳(メタデータ) (2024-07-08T14:59:10Z) - OSL-ActionSpotting: A Unified Library for Action Spotting in Sports Videos [56.393522913188704]
我々は,スポーツビデオ分析における研究と応用の合理化のために,さまざまなアクションスポッティングアルゴリズムを統合するPythonライブラリであるOSL-ActionSpottingを紹介する。
我々はOSL-ActionSpottingに3つの基本アクションスポッティング手法を統合することに成功した。
論文 参考訳(メタデータ) (2024-07-01T13:17:37Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - LoRA-like Calibration for Multimodal Deception Detection using ATSFace
Data [1.550120821358415]
本稿では,ビデオデータや誤認識のダイナミクスに固有の課題に対処する,注意を意識したニューラルネットワークを提案する。
我々は、精度を高めるマルチモーダル融合戦略を採用し、実生活の試行データセット上で92%の精度で精度を向上する。
論文 参考訳(メタデータ) (2023-09-04T06:22:25Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - A New Action Recognition Framework for Video Highlights Summarization in
Sporting Events [9.870478438166288]
YOLO-v3とOpenPoseという2つの古典的オープンソース構造に基づく3レベル予測アルゴリズムを用いて,スポーツビデオストリームを自動的にクリップするフレームワークを提案する。
その結果,スポーツ映像のトレーニングデータを用いて,スポーツ活動のハイライトを正確に行うことができることがわかった。
論文 参考訳(メタデータ) (2020-12-01T04:14:40Z) - Unsupervised Temporal Feature Aggregation for Event Detection in
Unstructured Sports Videos [10.230408415438966]
任意のカメラアングルを持つ非構造化環境を対象としたスポーツビデオにおけるイベント検出事例について検討した。
我々は、非構造化設定におけるプレイヤーの教師なし識別と、任意の射撃角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を同定し、解決する。
論文 参考訳(メタデータ) (2020-02-19T10:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。