Fugu-MT 論文翻訳(概要): TrajSV: A Trajectory-based Model for Sports Video Representations and Applications

論文の概要: TrajSV: A Trajectory-based Model for Sports Video Representations and Applications

arxiv url: http://arxiv.org/abs/2508.11569v1
Date: Fri, 15 Aug 2025 16:23:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-18 14:51:24.144625
Title: TrajSV: A Trajectory-based Model for Sports Video Representations and Applications
Title（参考訳）: TrajSV:スポーツビデオ表現と応用のための軌道ベースモデル
Authors: Zheng Wang, Shihao Xu, Wei Shi,
Abstract要約: 既存の研究における様々な問題に対処するトラジェクトリベースのフレームワークであるTrajSVを提案する。 TrajSVは、データ前処理、Clip Representation Network(CRNet)、Video Representation Network(VRNet)の3つのコンポーネントで構成されている。
参考スコア（独自算出の注目度）: 8.54429529591851
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Sports analytics has received significant attention from both academia and industry in recent years. Despite the growing interest and efforts in this field, several issues remain unresolved, including (1) data unavailability, (2) lack of an effective trajectory-based framework, and (3) requirement for sufficient supervision labels. In this paper, we present TrajSV, a trajectory-based framework that addresses various issues in existing studies. TrajSV comprises three components: data preprocessing, Clip Representation Network (CRNet), and Video Representation Network (VRNet). The data preprocessing module extracts player and ball trajectories from sports broadcast videos. CRNet utilizes a trajectory-enhanced Transformer module to learn clip representations based on these trajectories. Additionally, VRNet learns video representations by aggregating clip representations and visual features with an encoder-decoder architecture. Finally, a triple contrastive loss is introduced to optimize both video and clip representations in an unsupervised manner. The experiments are conducted on three broadcast video datasets to verify the effectiveness of TrajSV for three types of sports (i.e., soccer, basketball, and volleyball) with three downstream applications (i.e., sports video retrieval, action spotting, and video captioning). The results demonstrate that TrajSV achieves state-of-the-art performance in sports video retrieval, showcasing a nearly 70% improvement. It outperforms baselines in action spotting, achieving state-of-the-art results in 9 out of 17 action categories, and demonstrates a nearly 20% improvement in video captioning. Additionally, we introduce a deployed system along with the three applications based on TrajSV.
Abstract（参考訳）: 近年、スポーツ分析は学術と産業の両方から大きな注目を集めている。この分野での関心や努力にもかかわらず、(1)データ利用不可、(2)効果的な軌道ベースフレームワークの欠如、(3)十分な監視ラベルの必要性など、いくつかの問題が未解決のままである。本稿では,既存の研究における様々な問題に対処するトラジェクトリベースのフレームワークであるTrajSVを提案する。 TrajSVは、データ前処理、Clip Representation Network(CRNet)、Video Representation Network(VRNet)の3つのコンポーネントで構成されている。データ前処理モジュールは、スポーツ放送ビデオからプレーヤとボールの軌跡を抽出する。 CRNetは、トラジェクトリ強化トランスフォーマーモジュールを使用して、これらのトラジェクトリに基づいてクリップ表現を学習する。さらに、VRNetは、エンコーダ-デコーダアーキテクチャでクリップ表現と視覚的特徴を集約することで、ビデオ表現を学習する。最後に、ビデオとクリップの表現を教師なしで最適化するために、3つのコントラスト損失を導入する。実験は, 3種類のスポーツ(サッカー, バスケットボール, バレーボール)におけるTrajSVの有効性を検証するために, 下流の3つの応用(スポーツビデオ検索, アクションスポッティング, ビデオキャプション)を用いて, 3種類の放送ビデオデータセットを用いて実施された。その結果,スポーツビデオ検索におけるTrajSVの最先端性能が向上し,70%近くの改善が見られた。アクションスポッティングではベースラインを上回り、17種類のアクションカテゴリのうち9つで最先端の結果を達成し、ビデオキャプションでは20%近く改善されている。さらに,TrajSVをベースとした3つのアプリケーションとともに,デプロイシステムを導入する。

関連論文リスト

Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文参考訳（メタデータ） (2023-12-21T17:28:09Z)
STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文参考訳（メタデータ） (2023-02-20T03:13:45Z)
Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文参考訳（メタデータ） (2022-08-09T16:59:24Z)
MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文参考訳（メタデータ） (2022-03-14T13:15:09Z)
Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文参考訳（メタデータ） (2022-01-23T03:38:37Z)
Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-01-11T16:14:23Z)
PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。 PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文参考訳（メタデータ） (2021-12-01T19:49:57Z)
Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。 fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文参考訳（メタデータ） (2021-04-30T07:38:04Z)
Hybrid Dynamic-static Context-aware Attention Network for Action Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。 2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文参考訳（メタデータ） (2020-08-13T15:51:42Z)
Event detection in coarsely annotated sports videos via parallel multi receptive field 1D convolutions [14.30009544149561]
スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。粗い注釈付きビデオにおけるイベント検出の課題を提案する。本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-04-13T19:51:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。