論文の概要: BoxComm: Benchmarking Category-Aware Commentary Generation and Narration Rhythm in Boxing
- arxiv url: http://arxiv.org/abs/2604.04419v1
- Date: Mon, 06 Apr 2026 04:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.094023
- Title: BoxComm: Benchmarking Category-Aware Commentary Generation and Narration Rhythm in Boxing
- Title(参考訳): BoxComm: ボクシングにおけるカテゴリ対応コメント生成とナレーションリズムのベンチマーク
- Authors: Kaiwen Wang, Kaili Zheng, Rongrong Deng, Yiming Shi, Chenyi Guo, Ji Wu,
- Abstract要約: BoxCommは445のワールド・ボクシング・チャンピオンシップ・ビデオと52K以上のプロ放送の解説文からなる大規模なデータセットである。
本稿では,各文をプレイ・バイ・プレイ,戦術,文脈に分類する構造的注釈分類法を提案する。
本稿では,スポーツ解説生成に適した2つの新しい,補完的な評価手法を提案する。
- 参考スコア(独自算出の注目度): 9.244368483134101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal large language models (MLLMs) have shown strong capabilities in general video understanding, driving growing interest in automatic sports commentary generation. However, existing benchmarks for this task focus exclusively on team sports such as soccer and basketball, leaving combat sports entirely unexplored. Notably, combat sports present distinct challenges: critical actions unfold within milliseconds with visually subtle yet semantically decisive differences, and professional commentary contains a substantially higher proportion of tactical analysis compared to team sports. In this paper, we present BoxComm, a large-scale dataset comprising 445 World Boxing Championship match videos with over 52K commentary sentences from professional broadcasts. We propose a structured commentary taxonomy that categorizes each sentence into play-by-play, tactical, or contextual, providing the first category-level annotation for sports commentary benchmarks. Building on this taxonomy, we introduce two novel and complementary evaluations tailored to sports commentary generation: (1) category-conditioned generation, which evaluates whether models can produce accurate commentary of a specified type given video context; and (2) commentary rhythm assessment, which measures whether freely generated commentary exhibits appropriate temporal pacing and type distribution over continuous video segments, capturing a dimension of commentary competence that prior benchmarks have not addressed. Experiments on multiple state-of-the-art MLLMs reveal that current models struggle on both evaluations. We further propose EIC-Gen, an improved baseline incorporating detected punch events to supply structured action cues, yielding consistent gains and highlighting the importance of perceiving fleeting and subtle events for combat sports commentary.
- Abstract(参考訳): 近年のマルチモーダル大言語モデル (MLLM) は, 映像理解において強力な機能を示し, 自動スポーツ解説生成への関心が高まっている。
しかし、このタスクの既存のベンチマークはサッカーやバスケットボールなどのチームスポーツにのみ焦点を合わせており、戦闘スポーツは完全に探索されていないままである。
重要な行動は、視覚的に微妙に決定的な違いがあるミリ秒以内に展開され、プロの解説には、チームスポーツに比べて戦術分析の比率がかなり高い。
本稿では,445件のワールド・ボクシング・チャンピオンシップ・ビデオと52K以上のプロ放送の解説文を組み合わせた大規模データセットであるBoxCommを紹介する。
本稿では,各文をプレイ・バイ・プレイ,戦術的,文脈的に分類し,スポーツ解説ベンチマークの最初のカテゴリーレベルのアノテーションを提供する構造的注釈分類法を提案する。
本分類に基づいて, スポーツ解説生成に適した2つの新規かつ補完的な評価手法を提案する。(1) カテゴリー条件付き生成, モデルが特定のタイプのビデオコンテキストの正確な注釈を作成できるかどうかを評価すること, (2) 自由生成された注釈が連続映像セグメントに対して適切な時間的ペーシングと型分布を示すかどうかを測定すること, 先行ベンチマークが対応していないコメント能力の次元を計測すること。
複数の最先端MLLMの実験は、現在のモデルが両方の評価に苦戦していることを示している。
さらに,検知されたパンチイベントを組み込んだ改良されたベースラインであるEIC-Genを提案する。
関連論文リスト
- TennisExpert: Towards Expert-Level Analytical Sports Video Understanding [16.625250626542208]
テニスは最も広くフォローされているスポーツの1つであり、プロのアナリティクス、自動コーチング、リアルタイムの解説に強い可能性を持つ広範な放送映像を生み出している。
しかし、詳細な注釈と専門家レベルの注釈を付けた大規模なベンチマークが欠如しているため、自動テニス理解はいまだ探索されていない。
これらの課題に対処するため、200以上のプロの試合(471.9時間)と4万以上のラリーレベルのクリップからなる大規模なテニスベンチマークであるTennisVLを紹介した。
Qwen3-VL-8B上に構築されたメモリ拡張モデルとビデオセマンティクスを統合するマルチモーダルテニス理解フレームワークであるTennisExpertを提案する。
論文 参考訳(メタデータ) (2026-03-11T15:12:10Z) - Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches [69.57389826203699]
本研究は,文脈内プロンプトだけで,意味論的に関連性があり,良好なリアルタイムコメント生成をサポートできるかどうかを考察する。
提案手法は,1)固定区間法,2)動的区間法に基づく復号法である。
日本語と英語の競馬ゲームデータセットを用いた実験により,動的間隔に基づく復号化は,プロンプトのみを用いて,人間の発話タイミングや内容とより密に一致した注釈を生成できることが示されている。
論文 参考訳(メタデータ) (2026-03-03T06:39:04Z) - Generalizing Sports Feedback Generation by Watching Competitions and Reading Books: A Rock Climbing Case Study [27.82932642584153]
ビデオLLMは、スポーツフィードバック生成の困難なタスクに苦労する。
従来のテキスト生成評価指標は、スポーツフィードバックの品質のユニークな側面を捉えていない。
本研究では,(1)特異性と(2)動作可能性の2つの評価指標を提案する。
論文 参考訳(メタデータ) (2026-02-09T18:41:43Z) - BoxingVI: A Multi-Modal Benchmark for Boxing Action Recognition and Localization [1.623267727687624]
ボクシングにおけるパンチ検出と分類に適した、包括的でよく注釈付けされたビデオデータセットを提案する。
データセットは、6つの異なるパンチタイプに分類される6,915個の高品質なパンチクリップで構成されている。
この貢献は、ボクシングと関連ドメインにおける運動分析、自動コーチング、パフォーマンスアセスメントの進展を加速することを目的としている。
論文 参考訳(メタデータ) (2025-11-20T16:37:07Z) - Commentary Generation for Soccer Highlights [0.0]
GOALデータセットを用いて,サッカーハイライトのコメント生成にMatchVoiceを拡張した。
元のMatchTimeの結果を再現する広範な実験を行い、セットアップを評価します。
以上の結果から,より広範なビデオ言語領域の技法を統合することで,さらなるパフォーマンス向上の必要性が示唆された。
論文 参考訳(メタデータ) (2025-08-11T01:48:37Z) - MatchTime: Towards Automatic Soccer Game Commentary Generation [52.431010585268865]
観客の視聴体験を改善するために,自動サッカーゲーム解説モデルの構築を検討する。
まず、既存のデータセットでよく見られるビデオテキストのミスアライメントを観察し、49試合のタイムスタンプを手動でアノテートする。
第2に,既存のデータセットを自動的に修正・フィルタリングするマルチモーダル時間アライメントパイプラインを提案する。
第3に、キュレートされたデータセットに基づいて、MatchVoiceという自動コメント生成モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-06-26T17:57:25Z) - Sports Video: Fine-Grained Action Detection and Classification of Table
Tennis Strokes from Videos for MediaEval 2021 [0.0]
このタスクは、ビデオからのきめ細かいアクション検出と分類に取り組む。
主に卓球の試合の記録に焦点が当てられている。
本研究は,スポーツのパフォーマンスを解析するために,スポーツコーチや選手のためのツールを作成することを目的としている。
論文 参考訳(メタデータ) (2021-12-16T10:17:59Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Temporally-Aware Feature Pooling for Action Spotting in Soccer
Broadcasts [86.56462654572813]
私たちは、サッカーの試合の主なアクションを一時的にローカライズするサッカー放送におけるアクションスポッティングの分析に焦点を当てています。
時間的知識を組み込んだNetVLAD++という,NetVLADに基づく新たな機能プーリング手法を提案する。
我々は最近の大規模データセット SoccerNet-v2 の方法論をトレーニングし、評価し、アクションスポッティングのための平均平均mAP 53.4% に達した。
論文 参考訳(メタデータ) (2021-04-14T11:09:03Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。