論文の概要: Shot2Tactic-Caption: Multi-Scale Captioning of Badminton Videos for Tactical Understanding
- arxiv url: http://arxiv.org/abs/2510.14617v1
- Date: Thu, 16 Oct 2025 12:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.847173
- Title: Shot2Tactic-Caption: Multi-Scale Captioning of Badminton Videos for Tactical Understanding
- Title(参考訳): Shot2Tactic-Caption: 戦術理解のためのバドミントンビデオのマルチスケールキャプション
- Authors: Ning Ding, Keisuke Fujii, Toru Tamaki,
- Abstract要約: 本稿では,バドミントンにおける意味的・時間的マルチスケールビデオキャプションのための新しいフレームワークであるbfShot2Tactic-Captionを提案する。
Shot2Tactic-Captionは、ビジュアルエンコーダ、テンポラリトランスフォーマーエンコーダ、トランスフォーマーベースのデコーダを含む、デュアルブランチ設計を採用している。
戦術キャプションには、予測された戦術型状態をプロンプトとして埋め込んでデコーダに注入するショットワイズプロンプト誘導機構が組み込まれている。
- 参考スコア(独自算出の注目度): 10.526240385265256
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tactical understanding in badminton involves interpreting not only individual actions but also how tactics are dynamically executed over time. In this paper, we propose \textbf{Shot2Tactic-Caption}, a novel framework for semantic and temporal multi-scale video captioning in badminton, capable of generating shot-level captions that describe individual actions and tactic-level captions that capture how these actions unfold over time within a tactical execution. We also introduce the Shot2Tactic-Caption Dataset, the first badminton captioning dataset containing 5,494 shot captions and 544 tactic captions. Shot2Tactic-Caption adopts a dual-branch design, with both branches including a visual encoder, a spatio-temporal Transformer encoder, and a Transformer-based decoder to generate shot and tactic captions. To support tactic captioning, we additionally introduce a Tactic Unit Detector that identifies valid tactic units, tactic types, and tactic states (e.g., Interrupt, Resume). For tactic captioning, we further incorporate a shot-wise prompt-guided mechanism, where the predicted tactic type and state are embedded as prompts and injected into the decoder via cross-attention. The shot-wise prompt-guided mechanism enables our system not only to describe successfully executed tactics but also to capture tactical executions that are temporarily interrupted and later resumed. Experimental results demonstrate the effectiveness of our framework in generating both shot and tactic captions. Ablation studies show that the ResNet50-based spatio-temporal encoder outperforms other variants, and that shot-wise prompt structuring leads to more coherent and accurate tactic captioning.
- Abstract(参考訳): バドミントンにおける戦術的理解は、個々の行動だけでなく、時間とともに戦術が動的に実行される方法の解釈も含む。
本稿では,バドミントンにおける意味的・時間的マルチスケールビデオキャプションのための新しいフレームワークである「textbf{Shot2Tactic-Caption」を提案する。
また,5,494のショットキャプションと544の戦術キャプションを含む最初のバドミントンキャプションデータセットであるShot2Tactic-Caption Datasetを紹介した。
Shot2Tactic-Captionは、ビジュアルエンコーダ、時空間トランスフォーマーエンコーダ、およびショットキャプションと戦術キャプションを生成するトランスフォーマーベースのデコーダを含むデュアルブランチ設計を採用している。
戦術字幕作成を支援するために,有効な戦術単位,戦術型,戦術状態(例えば,中断,再帰)を識別する戦術単位検出器を導入する。
戦術キャプションには、予測された戦術タイプと状態がプロンプトとして埋め込まれ、クロスアテンションを介してデコーダに注入されるショットワイズプロンプト誘導機構が組み込まれている。
ショットワイズ・プロンプト誘導機構により,実行した戦術をうまく記述するだけでなく,一時的に中断し,その後再開した戦術的実行を捉えることができる。
実験により,ショットキャプションと戦術キャプションの両方を生成できるフレームワークの有効性が示された。
アブレーション研究では、ResNet50ベースの時空間エンコーダは他の変種よりも優れており、ショットワイドのプロンプト構造がより一貫性と正確な戦術キャプションをもたらすことが示されている。
関連論文リスト
- SGCap: Decoding Semantic Group for Zero-shot Video Captioning [14.484825416367338]
ゼロショットビデオキャプションは、ビデオテキストペアのモデルをトレーニングすることなく、ビデオを記述するための文を生成することを目的としている。
ゼロショットビデオキャプションのためのセマンティックグループキャプション(SGCap)手法を提案する。
論文 参考訳(メタデータ) (2025-08-02T09:05:45Z) - Progress-Aware Video Frame Captioning [55.23366888264651]
本稿では,アクションシーケンス内の微細な時間的ダイナミクスをキャプチャするキャプションモデルであるProgressCaptionerを提案する。
我々は、トレーニングをサポートするFrameCapデータセットと、キャプションの品質を評価するFrameCapEvalベンチマークを開発する。
結果は、ProgressCaptionerが主要なキャプションモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-03T01:21:28Z) - I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models [0.0]
我々は、画像からテキストへのグレーボックスの逆攻撃を、未ターゲティングとターゲットの両方に提示する。
攻撃はグレーボックス方式で実行され、デコーダモジュールに関する知識は不要です。
また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。
論文 参考訳(メタデータ) (2023-06-13T07:35:28Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。