論文の概要: TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation
- arxiv url: http://arxiv.org/abs/2504.17365v3
- Date: Tue, 29 Apr 2025 01:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.299314
- Title: TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation
- Title(参考訳): TimeSoccer: サッカー解説生成のためのマルチモーダル大規模言語モデル
- Authors: Ling You, Wenxuan Huang, Xinni Xie, Xiangyi Wei, Bangyan Li, Shaohui Lin, Yang Li, Changbo Wang,
- Abstract要約: TimeSoccerは、フルマッチサッカービデオにおけるSDVCのためのエンドツーエンドのサッカーMLLMである。
TimeSoccerはタイムスタンプを共同で予測し、ひとつのパスでキャプションを生成し、グローバルなコンテキストモデリングを可能にする。
MoFA-Selectは、トレーニングなし、モーション対応のフレーム圧縮モジュールで、代表フレームを適応的に選択する。
- 参考スコア(独自算出の注目度): 13.835968474349034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soccer is a globally popular sporting event, typically characterized by long matches and distinctive highlight moments. Recent advances in Multimodal Large Language Models (MLLMs) offer promising capabilities in temporal grounding and video understanding, soccer commentary generation often requires precise temporal localization and semantically rich descriptions over long-form video. However, existing soccer MLLMs often rely on the temporal a priori for caption generation, so they cannot process the soccer video end-to-end. While some traditional approaches follow a two-step paradigm that is complex and fails to capture the global context to achieve suboptimal performance. To solve the above issues, we present TimeSoccer, the first end-to-end soccer MLLM for Single-anchor Dense Video Captioning (SDVC) in full-match soccer videos. TimeSoccer jointly predicts timestamps and generates captions in a single pass, enabling global context modeling across 45-minute matches. To support long video understanding of soccer matches, we introduce MoFA-Select, a training-free, motion-aware frame compression module that adaptively selects representative frames via a coarse-to-fine strategy, and incorporates complementary training paradigms to strengthen the model's ability to handle long temporal sequences. Extensive experiments demonstrate that our TimeSoccer achieves State-of-The-Art (SoTA) performance on the SDVC task in an end-to-end form, generating high-quality commentary with accurate temporal alignment and strong semantic relevance.
- Abstract(参考訳): サッカーは世界的に人気のあるスポーツイベントであり、典型的には長い試合と独特のハイライトが特徴である。
近年のMLLM(Multimodal Large Language Models)の進歩は、時間的接地とビデオ理解において有望な能力を提供している。
しかし、既存のサッカーMLLMは、しばしばキャプション生成の時間優先に頼っているため、サッカービデオのエンドツーエンド処理はできない。
従来のアプローチでは2段階のパラダイムを踏襲するものもあるが、そのパラダイムは複雑で、グローバルなコンテキストを捉えて、最適以下のパフォーマンスを達成するのに失敗する。
以上の課題を解決するため,フルマッチサッカービデオにおいて,SDVC(Single-anchor Dense Video Captioning)のための初のエンドツーエンドサッカーMLLMであるTimeSoccerを紹介する。
TimeSoccerはタイムスタンプを共同で予測し、ひとつのパスでキャプションを生成する。
サッカーの試合の長時間の映像理解を支援するため,トレーニング不要な動き対応フレーム圧縮モジュールであるMoFA-Selectを導入する。
広範囲な実験により、我々のTimeSoccerはSDVCタスク上でのSoTA(State-of-The-Art)のパフォーマンスをエンドツーエンドで達成し、正確な時間的アライメントと強い意味的関連性を備えた高品質な注釈を生成する。
関連論文リスト
- Towards Universal Soccer Video Understanding [58.889409980618396]
本稿では,サッカー理解のための総合的マルチモーダルフレームワークを提案する。
これまでで最大のマルチモーダルサッカーデータセットである SoccerReplay-1988 を紹介する。
サッカービデオにまたがる時間的情報を活用し、様々な下流タスクに優れる高度なサッカー特化視覚情報であるMatchVisionを提示する。
論文 参考訳(メタデータ) (2024-12-02T18:58:04Z) - Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - Chrono: A Simple Blueprint for Representing Time in MLLMs [34.036784478999245]
ビデオ言語モデルにおける文脈的・時間的理解の課題について,ビデオにおける時間的局所化の課題を探求することによって検討する。
画像テキスト事前学習MLLMに適用可能なユニバーサルシーケンス青写真であるChronoを紹介する。
我々は、最も広く使われているベンチマークであるCharades-STA、QVHighlights、ActivityNet Captions、NeXT-GQA上でのグラウンドドビデオ質問応答において、新しいSOTAを実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。