論文の概要: Do We Need Large VLMs for Spotting Soccer Actions?
- arxiv url: http://arxiv.org/abs/2506.17144v1
- Date: Fri, 20 Jun 2025 16:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.550607
- Title: Do We Need Large VLMs for Spotting Soccer Actions?
- Title(参考訳): サッカーのアクションを見つけるには大きなVLMが必要か?
- Authors: Ritabrata Chakraborty, Rajatsubhra Chakraborty, Avijit Dasgupta, Sandeep Chaurasia,
- Abstract要約: 我々は、このビデオ中心のアプローチからテキストベースのタスクへのシフトを提案し、軽量でスケーラブルにする。
専門家のコメントには、マッチにおける重要なアクションを確実に見つけるのに十分な情報が含まれていると仮定する。
本実験は,この言語中心のアプローチが,臨界一致事象の検出に有効であることを示す。
- 参考スコア(独自算出の注目度): 4.334105740533729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional video-based tasks like soccer action spotting rely heavily on visual inputs, often requiring complex and computationally expensive models to process dense video data. In this work, we propose a shift from this video-centric approach to a text-based task, making it lightweight and scalable by utilizing Large Language Models (LLMs) instead of Vision-Language Models (VLMs). We posit that expert commentary, which provides rich, fine-grained descriptions and contextual cues such as excitement and tactical insights, contains enough information to reliably spot key actions in a match. To demonstrate this, we use the SoccerNet Echoes dataset, which provides timestamped commentary, and employ a system of three LLMs acting as judges specializing in outcome, excitement, and tactics. Each LLM evaluates sliding windows of commentary to identify actions like goals, cards, and substitutions, generating accurate timestamps for these events. Our experiments show that this language-centric approach performs effectively in detecting critical match events, providing a lightweight and training-free alternative to traditional video-based methods for action spotting.
- Abstract(参考訳): サッカーのアクションスポッティングのような従来のビデオベースのタスクは視覚的な入力に大きく依存しており、高密度のビデオデータを処理するのに複雑で計算コストのかかるモデルを必要とすることが多い。
本研究では,映像中心のアプローチからテキストベースタスクへの移行を提案し,視覚言語モデル(VLM)の代わりにLLM(Large Language Models)を活用することにより,軽量かつスケーラブルにする。
我々は、リッチできめ細かい説明や、興奮や戦術的洞察などの文脈的な手がかりを提供する専門家の注釈書には、マッチにおける重要なアクションを確実に見つけ出すのに十分な情報が含まれていると仮定する。
これを実証するために、タイムスタンプ付きコメントを提供する SoccerNet Echoes データセットを使用し、結果、興奮、戦術を専門とする審査員として機能する3つの LLM システムを採用している。
各LCMはコメントのスライドウィンドウを評価し、ゴール、カード、置換といったアクションを識別し、これらのイベントの正確なタイムスタンプを生成する。
実験の結果、この言語中心のアプローチは重要なマッチングイベントの検出に有効であり、アクションスポッティングのための従来のビデオベースの手法に代わる軽量でトレーニングなしの代替手段を提供する。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - TRACE: Temporal Grounding Video LLM via Causal Event Modeling [6.596327795743185]
ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。
現在のビデオLLMは自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がない。
本稿では、ビデオLLM出力をイベントのシーケンスとして表現し、過去のイベント、ビデオ入力、テキスト命令を用いて現在のイベントを予測する因果イベントモデリングフレームワークを提案する。
本稿では,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。
論文 参考訳(メタデータ) (2024-10-08T02:46:30Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。
我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。
視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文 参考訳(メタデータ) (2023-10-19T17:59:05Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Temporally-Aware Feature Pooling for Action Spotting in Soccer
Broadcasts [86.56462654572813]
私たちは、サッカーの試合の主なアクションを一時的にローカライズするサッカー放送におけるアクションスポッティングの分析に焦点を当てています。
時間的知識を組み込んだNetVLAD++という,NetVLADに基づく新たな機能プーリング手法を提案する。
我々は最近の大規模データセット SoccerNet-v2 の方法論をトレーニングし、評価し、アクションスポッティングのための平均平均mAP 53.4% に達した。
論文 参考訳(メタデータ) (2021-04-14T11:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。