論文の概要: Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches
- arxiv url: http://arxiv.org/abs/2603.02655v1
- Date: Tue, 03 Mar 2026 06:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.67048
- Title: Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches
- Title(参考訳): マルチモーダルLDMを用いたゲームビデオ解説のリアルタイム生成:ポーズ対応デコードアプローチ
- Authors: Anum Afzal, Yuki Saito, Hiroya Takamura, Katsuhito Sudoh, Shinnosuke Takamichi, Graham Neubig, Florian Matthes, Tatsuya Ishigaki,
- Abstract要約: 本研究は,文脈内プロンプトだけで,意味論的に関連性があり,良好なリアルタイムコメント生成をサポートできるかどうかを考察する。
提案手法は,1)固定区間法,2)動的区間法に基づく復号法である。
日本語と英語の競馬ゲームデータセットを用いた実験により,動的間隔に基づく復号化は,プロンプトのみを用いて,人間の発話タイミングや内容とより密に一致した注釈を生成できることが示されている。
- 参考スコア(独自算出の注目度): 69.57389826203699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time video commentary generation provides textual descriptions of ongoing events in videos. It supports accessibility and engagement in domains such as sports, esports, and livestreaming. Commentary generation involves two essential decisions: what to say and when to say it. While recent prompting-based approaches using multimodal large language models (MLLMs) have shown strong performance in content generation, they largely ignore the timing aspect. We investigate whether in-context prompting alone can support real-time commentary generation that is both semantically relevant and well-timed. We propose two prompting-based decoding strategies: 1) a fixed-interval approach, and 2) a novel dynamic interval-based decoding approach that adjusts the next prediction timing based on the estimated duration of the previous utterance. Both methods enable pause-aware generation without any fine-tuning. Experiments on Japanese and English datasets of racing and fighting games show that the dynamic interval-based decoding can generate commentary more closely aligned with human utterance timing and content using prompting alone. We release a multilingual benchmark dataset, trained models, and implementations to support future research on real-time video commentary generation.
- Abstract(参考訳): リアルタイムビデオコメンタリー生成は、ビデオ中の進行中のイベントのテキスト記述を提供する。
スポーツ、エスポート、ライブストリーミングなどの分野におけるアクセシビリティとエンゲージメントをサポートする。
コメント生成には、何を言うべきか、いつ言うべきかという2つの重要な決定が含まれる。
近年,マルチモーダル大言語モデル (MLLM) を用いたプロンプトベースアプローチは,コンテンツ生成において高い性能を示したが,タイミング面は無視されている。
本研究は,文脈内プロンプトだけで,意味論的に関連性があり,良好なリアルタイムコメント生成をサポートできるかどうかを考察する。
我々は2つのプロンプトベースのデコード戦略を提案する。
1)固定区間アプローチ,及び
2) 従来の発話の予測時間に基づいて次の予測タイミングを調整する動的間隔に基づく復号法を提案する。
どちらのメソッドも、微調整なしで停止対応の生成を可能にする。
日本語と英語の競馬ゲームデータセットを用いた実験により,動的間隔に基づく復号化は,プロンプトのみを用いて,人間の発話タイミングや内容とより密に一致した注釈を生成できることが示されている。
リアルタイムビデオコメント生成の今後の研究を支援するため、マルチ言語ベンチマークデータセット、訓練済みモデル、実装をリリースする。
関連論文リスト
- Commentary Generation for Soccer Highlights [0.0]
GOALデータセットを用いて,サッカーハイライトのコメント生成にMatchVoiceを拡張した。
元のMatchTimeの結果を再現する広範な実験を行い、セットアップを評価します。
以上の結果から,より広範なビデオ言語領域の技法を統合することで,さらなるパフォーマンス向上の必要性が示唆された。
論文 参考訳(メタデータ) (2025-08-11T01:48:37Z) - Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation [13.835968474349034]
TimeSoccerは、フルマッチサッカービデオにおけるSDVCのためのエンドツーエンドのサッカーMLLMである。
TimeSoccerはタイムスタンプを共同で予測し、ひとつのパスでキャプションを生成し、グローバルなコンテキストモデリングを可能にする。
MoFA-Selectは、トレーニングなし、モーション対応のフレーム圧縮モジュールで、代表フレームを適応的に選択する。
論文 参考訳(メタデータ) (2025-04-24T08:27:42Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。