Fugu-MT 論文翻訳(概要): Towards Automatic Soccer Commentary Generation with Knowledge-Enhanced Visual Reasoning

論文の概要: Towards Automatic Soccer Commentary Generation with Knowledge-Enhanced Visual Reasoning

arxiv url: http://arxiv.org/abs/2604.00057v1
Date: Tue, 31 Mar 2026 02:24:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:31.651415
Title: Towards Automatic Soccer Commentary Generation with Knowledge-Enhanced Visual Reasoning
Title（参考訳）: 知識強化型ビジュアル推論によるサッカー解説の自動生成に向けて
Authors: Zeyu Jin, Xiaoyu Qin, Songtao Zhou, Kaifeng Yun, Jia Jia,
Abstract要約: サッカー解説は観客のサッカーゲーム観戦体験を高める上で重要な役割を担っている。サッカーの自動コメント生成における先行研究は、通常、匿名のライブテキストコメンタリーを生成するエンド・ツー・エンド方式を採用する。本稿では,サッカー解説生成のための2段階モデルであるGameSightを提案する。
参考スコア（独自算出の注目度）: 18.388733074404403
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Soccer commentary plays a crucial role in enhancing the soccer game viewing experience for audiences. Previous studies in automatic soccer commentary generation typically adopt an end-to-end method to generate anonymous live text commentary. Such generated commentary is insufficient in the context of real-world live televised commentary, as it contains anonymous entities, context-dependent errors and lacks statistical insights of the game events. To bridge the gap, we propose GameSight, a two-stage model to address soccer commentary generation as a knowledge-enhanced visual reasoning task, enabling live-televised-like knowledgeable commentary with accurate reference to entities (players and teams). GameSight starts by performing visual reasoning to align anonymous entities with fine-grained visual and contextual analysis. Subsequently, the entity-aligned commentary is refined with knowledge by incorporating external historical statistics and iteratively updated internal game state information. Consequently, GameSight improves the player alignment accuracy by 18.5% on SN-Caption-test-align dataset compared to Gemini 2.5-pro. Combined with further knowledge enhancement, GameSight outperforms in segment-level accuracy and commentary quality, as well as game-level contextual relevance and structural composition. We believe that our work paves the way for a more informative and engaging human-centric experience with the AI sports application. Demo Page: https://gamesight2025.github.io/gamesight2025
Abstract（参考訳）: サッカー解説は観客のサッカーゲーム観戦体験を高める上で重要な役割を担っている。サッカーの自動コメント生成における先行研究は、通常、匿名のライブテキストコメンタリーを生成するエンド・ツー・エンド方式を採用する。このようなコメントは、匿名のエンティティ、コンテキスト依存のエラー、ゲームイベントの統計的洞察の欠如など、実世界のライブテレビ放送されたコメントの文脈では不十分である。このギャップを埋めるために,我々は,サッカーの解説生成を知識に富んだ視覚的推論タスクとして扱うための2段階モデルであるGameSightを提案する。 GameSightは、匿名エンティティをきめ細かな視覚的および文脈的分析と整合させる視覚的推論を実行することから始まる。その後、外部の履歴統計と反復的に更新された内部ゲーム状態情報とを組み込むことにより、エンティティアライン・コメンタリーを知識で洗練する。その結果、GameSight は Gemini 2.5-pro と比較して、SN-Caption-test-align データセットでプレイヤーのアライメント精度を 18.5% 改善した。さらなる知識強化と組み合わさって、GameSightはセグメントレベルの精度と注釈品質、ゲームレベルの文脈関連性、構造的構成に優れる。私たちは、私たちの仕事は、AIスポーツアプリケーションでより情報豊かで魅力的な人間中心の体験を実現する道を開くと信じています。 Demo Page: https://gamesight2025.github.io/gamesight2025

関連論文リスト

Commentary Generation for Soccer Highlights [0.0]
GOALデータセットを用いて,サッカーハイライトのコメント生成にMatchVoiceを拡張した。元のMatchTimeの結果を再現する広範な実験を行い、セットアップを評価します。以上の結果から,より広範なビデオ言語領域の技法を統合することで,さらなるパフォーマンス向上の必要性が示唆された。
論文参考訳（メタデータ） (2025-08-11T01:48:37Z)
SoccerChat: Integrating Multimodal Data for Enhanced Soccer Game Understanding [44.04695944511487]
SoccerChatは、ビジュアルデータとテキストデータを統合して、サッカービデオの理解を強化した会話型AIフレームワークである。我々は,サッカーイベント理解において,行動分類と審判決定タスクについて,サッカーChatのベンチマークを行い,その性能を実証した。我々の発見は、サッカー分析の進歩におけるマルチモーダル統合の重要性を強調し、よりインタラクティブで説明可能なAI駆動スポーツ分析への道を開いた。
論文参考訳（メタデータ） (2025-05-22T13:01:51Z)
MatchTime: Towards Automatic Soccer Game Commentary Generation [52.431010585268865]
観客の視聴体験を改善するために,自動サッカーゲーム解説モデルの構築を検討する。まず、既存のデータセットでよく見られるビデオテキストのミスアライメントを観察し、49試合のタイムスタンプを手動でアノテートする。第2に,既存のデータセットを自動的に修正・フィルタリングするマルチモーダル時間アライメントパイプラインを提案する。第3に、キュレートされたデータセットに基づいて、MatchVoiceという自動コメント生成モデルをトレーニングします。
論文参考訳（メタデータ） (2024-06-26T17:57:25Z)
Game-MUG: Multimodal Oriented Game Situation Understanding and Commentary Generation Dataset [8.837048597513059]
本稿では,新しいマルチモーダルゲーム状況理解とオーディエンスによるコメント生成データセットであるGAME-MUGを紹介する。我々のデータセットは、YouTubeとTwitchの2020-2022 LOLゲームライブストリームから収集され、テキスト、オーディオ、時系列イベントログを含むマルチモーダルEスポーツゲーム情報を含んでいる。また,ゲーム状況とオーディエンス会話理解を網羅して,新たなオーディエンス会話追加コメントデータセットを提案する。
論文参考訳（メタデータ） (2024-04-30T00:39:26Z)
SoccerNet-Caption: Dense Video Captioning for Soccer Broadcasts Commentaries [71.44210436913029]
本稿では,単一のタイムスタンプを固定したテキストコメンタリーの生成に着目した,高密度動画キャプションの新たな課題を提案する。サッカー放送の715.9時間に約37万のタイムスタンプによるコメントからなる挑戦的なデータセットを提示する。
論文参考訳（メタデータ） (2023-04-10T13:08:03Z)
GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation [75.60413443783953]
我々は,KGVC(Knowledge-grounded Video Captioning)として新たなタスク設定を提案するための,8.9k以上のサッカービデオクリップ,22kの文,42kの知識トリプルのベンチマークであるGOALを提案する。私たちのデータとコードはhttps://github.com/THU-KEG/goal.orgで公開されています。
論文参考訳（メタデータ） (2023-03-26T08:43:36Z)
Going for GOAL: A Resource for Grounded Football Commentaries [66.10040637644697]
本稿では,GrOunded footbAlLコメンタリー(GOAL)について紹介する。本稿では,フレームリオーダー,モーメント検索,ライブコメンタリー検索,プレイバイプレイのライブコメンタリー生成といったタスクに対して,最先端のベースラインを提供する。その結果,ほとんどのタスクにおいてSOTAモデルは合理的に機能することがわかった。
論文参考訳（メタデータ） (2022-11-08T20:04:27Z)
Temporally-Aware Feature Pooling for Action Spotting in Soccer Broadcasts [86.56462654572813]
私たちは、サッカーの試合の主なアクションを一時的にローカライズするサッカー放送におけるアクションスポッティングの分析に焦点を当てています。時間的知識を組み込んだNetVLAD++という,NetVLADに基づく新たな機能プーリング手法を提案する。我々は最近の大規模データセット SoccerNet-v2 の方法論をトレーニングし、評価し、アクションスポッティングのための平均平均mAP 53.4% に達した。
論文参考訳（メタデータ） (2021-04-14T11:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。