論文の概要: BFMD: A Full-Match Badminton Dense Dataset for Dense Shot Captioning
- arxiv url: http://arxiv.org/abs/2603.25533v1
- Date: Thu, 26 Mar 2026 15:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.351156
- Title: BFMD: A Full-Match Badminton Dense Dataset for Dense Shot Captioning
- Title(参考訳): BFMD:フルマッチのバドミントンDense Dataset for Dense Shot Captioning
- Authors: Ning Ding, Keisuke Fujii, Toru Tamaki,
- Abstract要約: 最初のBadminton Full Match Denseデータセットを導入し、19のブロードキャストマッチで20時間以上のプレイをカバーし、それぞれにショットキャプションを付加した。
このデータセットは、マッチセグメント、集会イベント、ショットタイプ、シャトル軌跡、プレーヤーのキーポイントのポーズ、ショットキャプションなど、密集した集会レベルのマルチモーダルアノテーションを含む階層的なアノテーションを提供する。
我々は,セマンティックフィードバック機構を備えたビデオMAEベースのマルチモーダルキャプションフレームワークを開発し,ショットセマンティクスを利用してキャプション生成をガイドし,セマンティクスの一貫性を向上させる。
- 参考スコア(独自算出の注目度): 10.526240385265256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding tactical dynamics in badminton requires analyzing entire matches rather than isolated clips. However, existing badminton datasets mainly focus on short clips or task-specific annotations and rarely provide full-match data with dense multimodal annotations. This limitation makes it difficult to generate accurate shot captions and perform match-level analysis. To address this limitation, we introduce the first Badminton Full Match Dense (BFMD) dataset, with 19 broadcast matches (including both singles and doubles) covering over 20 hours of play, comprising 1,687 rallies and 16,751 hit events, each annotated with a shot caption. The dataset provides hierarchical annotations including match segments, rally events, and dense rally-level multimodal annotations such as shot types, shuttle trajectories, player pose keypoints, and shot captions. We develop a VideoMAE-based multimodal captioning framework with a Semantic Feedback mechanism that leverages shot semantics to guide caption generation and improve semantic consistency. Experimental results demonstrate that multimodal modeling and semantic feedback improve shot caption quality over RGB-only baselines. We further showcase the potential of BFMD by analyzing the temporal evolution of tactical patterns across full matches.
- Abstract(参考訳): バドミントンにおける戦術力学を理解するには、孤立したクリップではなく、マッチ全体を解析する必要がある。
しかし、既存のバドミントンデータセットは主にショートクリップやタスク固有のアノテーションに焦点を当てており、密集したマルチモーダルアノテーションでフルマッチのデータを提供することは滅多にない。
この制限により、正確なショットキャプションを生成し、マッチレベルの分析を行うのが難しくなる。
この制限に対処するために、最初のBadminton Full Match Dense (BFMD)データセットを導入し、19の放送試合(シングルとダブルを含む)が20時間以上にわたって行われ、1,687のラリーと16,751のヒットイベントがそれぞれショットキャプションでアノテートされた。
このデータセットは、マッチセグメント、集会イベント、ショットタイプ、シャトル軌跡、プレーヤーのキーポイントのポーズ、ショットキャプションなど、密集した集会レベルのマルチモーダルアノテーションを含む階層的なアノテーションを提供する。
我々は,セマンティックフィードバック機構を備えたビデオMAEベースのマルチモーダルキャプションフレームワークを開発し,ショットセマンティクスを利用してキャプション生成をガイドし,セマンティクスの一貫性を向上させる。
実験により,マルチモーダルモデリングとセマンティックフィードバックにより,RGBのみのベースラインよりもショットキャプションの品質が向上することが確認された。
さらに,全試合における戦術パターンの時間的進化を解析し,BFMDの可能性を示す。
関連論文リスト
- TennisExpert: Towards Expert-Level Analytical Sports Video Understanding [16.625250626542208]
テニスは最も広くフォローされているスポーツの1つであり、プロのアナリティクス、自動コーチング、リアルタイムの解説に強い可能性を持つ広範な放送映像を生み出している。
しかし、詳細な注釈と専門家レベルの注釈を付けた大規模なベンチマークが欠如しているため、自動テニス理解はいまだ探索されていない。
これらの課題に対処するため、200以上のプロの試合(471.9時間)と4万以上のラリーレベルのクリップからなる大規模なテニスベンチマークであるTennisVLを紹介した。
Qwen3-VL-8B上に構築されたメモリ拡張モデルとビデオセマンティクスを統合するマルチモーダルテニス理解フレームワークであるTennisExpertを提案する。
論文 参考訳(メタデータ) (2026-03-11T15:12:10Z) - Shot2Tactic-Caption: Multi-Scale Captioning of Badminton Videos for Tactical Understanding [10.526240385265256]
本稿では,バドミントンにおける意味的・時間的マルチスケールビデオキャプションのための新しいフレームワークであるbfShot2Tactic-Captionを提案する。
Shot2Tactic-Captionは、ビジュアルエンコーダ、テンポラリトランスフォーマーエンコーダ、トランスフォーマーベースのデコーダを含む、デュアルブランチ設計を採用している。
戦術キャプションには、予測された戦術型状態をプロンプトとして埋め込んでデコーダに注入するショットワイズプロンプト誘導機構が組み込まれている。
論文 参考訳(メタデータ) (2025-10-16T12:24:51Z) - Bridging the Gap: Doubles Badminton Analysis with Singles-Trained Models [0.0]
バドミントンは世界最速のラケットスポーツです
これまでの研究は主に、データの可用性と多人数追跡の課題のためにシングルに重点を置いてきた。
この研究は、ファストラケットスポーツのこの支配的だが未検討のフォーマットを理解するために、ダブルス固有のデータセットの基盤を確立する。
論文 参考訳(メタデータ) (2025-08-19T04:45:15Z) - AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation [52.655400705690155]
AnimeShooterは参照誘導型マルチショットアニメーションデータセットである。
ストーリーレベルのアノテーションは、ストーリーライン、キーシーン、参照イメージを持つメインキャラクタプロファイルを含む、物語の概要を提供する。
ショットレベルのアノテーションはストーリーを連続したショットに分解し、それぞれにシーン、キャラクター、物語と記述的なビジュアルキャプションが注釈付けされている。
別個のサブセットであるAnimeShooter-audioは、ショットごとに同期されたオーディオトラックと、オーディオ記述と音源を提供する。
論文 参考訳(メタデータ) (2025-06-03T17:55:18Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos [64.57435509822416]
この作品は、ワールド・テーブルテニス選手権とオリンピアードのプロの卓球試合の放送ビデオから収集された2,721本のビデオクリップで構成されている。
強調局所化と強調認識という2つのアクション検出問題を定式化する。
その結果、TheNameは依然として困難なタスクであり、ビデオからの高密度なアクション検出のための特別なベンチマークとして使用できることを確認した。
論文 参考訳(メタデータ) (2022-07-26T08:34:17Z) - Exploring the Long Short-Term Dependencies to Infer Shot Influence in
Badminton Matches [9.553207911311926]
ショットのプロセスを完全に記述するためのバドミントン言語を導入します。
本稿では,新しい短期抽出器と長期符号化器からなるディープラーニングモデルを提案する。
本モデルでは,収集結果に対するアクションシーケンスの透明性を実現するためのアテンション機構を組み込んだ。
論文 参考訳(メタデータ) (2021-09-14T04:44:40Z) - Temporally-Aware Feature Pooling for Action Spotting in Soccer
Broadcasts [86.56462654572813]
私たちは、サッカーの試合の主なアクションを一時的にローカライズするサッカー放送におけるアクションスポッティングの分析に焦点を当てています。
時間的知識を組み込んだNetVLAD++という,NetVLADに基づく新たな機能プーリング手法を提案する。
我々は最近の大規模データセット SoccerNet-v2 の方法論をトレーニングし、評価し、アクションスポッティングのための平均平均mAP 53.4% に達した。
論文 参考訳(メタデータ) (2021-04-14T11:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。