論文の概要: ViSTec: Video Modeling for Sports Technique Recognition and Tactical
Analysis
- arxiv url: http://arxiv.org/abs/2402.15952v1
- Date: Sun, 25 Feb 2024 02:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:11:43.307985
- Title: ViSTec: Video Modeling for Sports Technique Recognition and Tactical
Analysis
- Title(参考訳): ViSTec:スポーツ技術認識と戦術解析のためのビデオモデリング
- Authors: Yuchen He, Zeqing Yuan, Yihong Wu, Liqi Cheng, Dazhen Deng, Yingcai Wu
- Abstract要約: ViSTecは、人間の認知にインスパイアされたビデオベースのスポーツ技術認識モデルである。
提案手法は,ストロークシーケンスにおける戦略的知識を明示的にモデル化するグラフを統合し,文脈的帰納バイアスによる技術認識を強化する。
中国の卓球チームの専門家によるケーススタディは、分析を自動化するモデルの能力を検証する。
- 参考スコア(独自算出の注目度): 19.945083591851517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The immense popularity of racket sports has fueled substantial demand in
tactical analysis with broadcast videos. However, existing manual methods
require laborious annotation, and recent attempts leveraging video perception
models are limited to low-level annotations like ball trajectories, overlooking
tactics that necessitate an understanding of stroke techniques.
State-of-the-art action segmentation models also struggle with technique
recognition due to frequent occlusions and motion-induced blurring in racket
sports videos. To address these challenges, We propose ViSTec, a Video-based
Sports Technique recognition model inspired by human cognition that synergizes
sparse visual data with rich contextual insights. Our approach integrates a
graph to explicitly model strategic knowledge in stroke sequences and enhance
technique recognition with contextual inductive bias. A two-stage action
perception model is jointly trained to align with the contextual knowledge in
the graph. Experiments demonstrate that our method outperforms existing models
by a significant margin. Case studies with experts from the Chinese national
table tennis team validate our model's capacity to automate analysis for
technical actions and tactical strategies. More details are available at:
https://ViSTec2024.github.io/.
- Abstract(参考訳): ラケットスポーツの絶大な人気は、放送ビデオによる戦術分析にかなりの需要をもたらした。
しかし、既存の手作業では手間のかかるアノテーションが必要であり、映像知覚モデルを活用した最近の試みは、ボールの軌跡のような低レベルのアノテーションに限定されており、ストロークテクニックの理解を必要とする戦術を見渡している。
最先端のアクションセグメンテーションモデルも、ラケットスポーツビデオの頻繁な閉塞と動きによるぼやけのために技術認識に苦しむ。
これらの課題に対処するために,人間の認識にインスパイアされたビデオベースのスポーツ技術認識モデルViSTecを提案する。
提案手法は,ストロークシーケンスにおける戦略的知識を明示的にモデル化するグラフを統合し,文脈的帰納バイアスによる技術認識を強化する。
2段階の行動知覚モデルは、グラフの文脈知識と整合するように共同で訓練される。
実験により,本手法が既存モデルよりも有意な差を示した。
中国の卓球チームの専門家によるケーススタディは、我々のモデルが技術行動や戦術戦略の分析を自動化する能力を検証する。
詳細は、https://ViSTec2024.github.io/で確認できる。
関連論文リスト
- ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,専門家による解説を生成する。
提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Where Will Players Move Next? Dynamic Graphs and Hierarchical Fusion for
Movement Forecasting in Badminton [6.2405734957622245]
我々は、どのタイプのリターンストロークが作られるか、またプレイヤーが以前のストロークに基づいてどこに移動するかを予測することに重点を置いている。
既存のシーケンスベースのモデルはプレイヤー間の相互作用の影響を無視し、グラフベースのモデルは依然として多面的視点に悩まされている。
本稿では,対話型抽出器を用いた動的グラフと階層型移動予測モデル(DyMF)を提案する。
論文 参考訳(メタデータ) (2022-11-22T12:21:24Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。