論文の概要: Game-MUG: Multimodal Oriented Game Situation Understanding and Commentary Generation Dataset
- arxiv url: http://arxiv.org/abs/2404.19175v1
- Date: Tue, 30 Apr 2024 00:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:43:32.782316
- Title: Game-MUG: Multimodal Oriented Game Situation Understanding and Commentary Generation Dataset
- Title(参考訳): Game-MUG:マルチモーダル指向ゲームコンテクスト理解とコメント生成データセット
- Authors: Zhihao Zhang, Feiqi Cao, Yingbin Mo, Yiran Zhang, Josiah Poon, Caren Han,
- Abstract要約: 本稿では,新しいマルチモーダルゲーム状況理解とオーディエンスによるコメント生成データセットであるGAME-MUGを紹介する。
我々のデータセットは、YouTubeとTwitchの2020-2022 LOLゲームライブストリームから収集され、テキスト、オーディオ、時系列イベントログを含むマルチモーダルEスポーツゲーム情報を含んでいる。
また,ゲーム状況とオーディエンス会話理解を網羅して,新たなオーディエンス会話追加コメントデータセットを提案する。
- 参考スコア(独自算出の注目度): 8.837048597513059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dynamic nature of esports makes the situation relatively complicated for average viewers. Esports broadcasting involves game expert casters, but the caster-dependent game commentary is not enough to fully understand the game situation. It will be richer by including diverse multimodal esports information, including audiences' talks/emotions, game audio, and game match event information. This paper introduces GAME-MUG, a new multimodal game situation understanding and audience-engaged commentary generation dataset and its strong baseline. Our dataset is collected from 2020-2022 LOL game live streams from YouTube and Twitch, and includes multimodal esports game information, including text, audio, and time-series event logs, for detecting the game situation. In addition, we also propose a new audience conversation augmented commentary dataset by covering the game situation and audience conversation understanding, and introducing a robust joint multimodal dual learning model as a baseline. We examine the model's game situation/event understanding ability and commentary generation capability to show the effectiveness of the multimodal aspects coverage and the joint integration learning approach.
- Abstract(参考訳): エスポートのダイナミックな性質は、平均的な視聴者にとって比較的複雑である。
スポーツ放送にはゲーム専門家のキャスターが関与するが、キャスターに依存したゲーム解説はゲーム状況を完全に理解するには不十分である。
多様なマルチモーダルエスポート情報、聴衆の講演/感情、ゲームオーディオ、ゲームマッチイベント情報を含むことにより、よりリッチになる。
本稿では,新しいマルチモーダルゲーム状況理解とオーディエンスによるコメント生成データセットであるGAME-MUGとその強力なベースラインを紹介する。
我々のデータセットは、2020-2022年のYouTubeとTwitchのライブストリームから収集され、ゲーム状況を検出するためのテキスト、オーディオ、時系列イベントログを含むマルチモーダルEスポーツゲーム情報を含んでいる。
さらに,ゲーム状況とオーディエンス会話理解をカバーし,ベースラインとして頑健なマルチモーダル・デュアルラーニングモデルを導入することで,新たなオーディエンス会話強調データセットを提案する。
本稿では,マルチモーダル・アスペクト・カバレッジと統合学習手法の有効性を示すために,モデルのゲーム状況/イベント理解能力と注釈生成能力について検討する。
関連論文リスト
- MatchTime: Towards Automatic Soccer Game Commentary Generation [52.431010585268865]
観客の視聴体験を改善するために,自動サッカーゲーム解説モデルの構築を検討する。
まず、既存のデータセットでよく見られるビデオテキストのミスアライメントを観察し、49試合のタイムスタンプを手動でアノテートする。
第2に,既存のデータセットを自動的に修正・フィルタリングするマルチモーダル時間アライメントパイプラインを提案する。
第3に、キュレートされたデータセットに基づいて、MatchVoiceという自動コメント生成モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-06-26T17:57:25Z) - GameVibe: A Multimodal Affective Game Corpus [4.846739905880406]
本稿では,マルチモーダル・オーディオ視覚刺激による感性コーパスであるGameVibeについて紹介する。
コーパスは30のゲームにまたがって公開されている様々なゲームプレイセッションのビデオで構成されている。
論文 参考訳(メタデータ) (2024-06-17T10:52:52Z) - LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts [8.070778830276275]
我々は,ライブコメント技術の開発を容易にするために,大規模音声・視覚多モーダル対話データセットを作成する。
データはTwitchから収集され、11のカテゴリと575のストリーマーで合計438時間のビデオと3200万のコメントがある。
本稿では,映像中の時間的・空間的事象に対応するライブコメントを生成できる新しいマルチモーダル生成モデルを提案する。
論文 参考訳(メタデータ) (2023-10-01T02:35:58Z) - CS-lol: a Dataset of Viewer Comment with Scene in E-sports
Live-streaming [0.5735035463793008]
何十億ものライブストリーミング視聴者が、リアルタイムで見ているシーンについて意見を共有し、イベントと対話する。
CS-lolは,E-Sportsのライブストリーミングにおけるゲームシーンの記述と組み合わせた,視聴者からのコメントを含むデータセットである。
本稿では,ライブストリーミングイベントのシーンに対する視聴者コメントを検索するタスク,すなわち視聴者コメント検索を提案する。
論文 参考訳(メタデータ) (2023-01-17T13:34:06Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - Commentary Generation from Data Records of Multiplayer Strategy Esports Game [21.133690853111133]
我々は、人気のあるエスポートゲームであるLeague of Legendsから構造化されたデータと注釈をペアリングする大規模なデータセットを構築します。
次に、Transformerベースのモデルを評価し、構造化データレコードからゲーム注釈を生成する。
データ・ツー・テキスト・ジェネレーションのコミュニティにおける潜在的研究を促進するために、データセットをリリースします。
論文 参考訳(メタデータ) (2022-12-21T11:23:31Z) - A Survey on Video Action Recognition in Sports: Datasets, Methods and
Applications [60.3327085463545]
本稿では,スポーツ分析のための映像行動認識に関する調査を行う。
サッカー、バスケットボール、バレーボール、ホッケー、フィギュアスケート、体操、卓球、ダイビング、バドミントンなど10種以上のスポーツを紹介します。
本研究では,サッカー,バスケットボール,卓球,フィギュアスケート動作認識をサポートするPaddlePaddleを用いたツールボックスを開発した。
論文 参考訳(メタデータ) (2022-06-02T13:19:36Z) - A Multi-stage deep architecture for summary generation of soccer videos [11.41978608521222]
本稿では,音声メタデータとイベントメタデータの両方を利用して,サッカーの試合の要約を生成する手法を提案する。
その結果,提案手法は一致の動作を検出し,どの動作が要約に属するべきかを識別し,複数の候補要約を提案する。
論文 参考訳(メタデータ) (2022-05-02T07:26:35Z) - MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and
GENeration [46.19536568693307]
マルチモーダルなビデオオーディオテキスト理解と生成は、狭いがリッチなデータセットの恩恵を受けることができる。
本稿では,オープンソースのプラットフォームゲームCoinRunを用いて収集した大規模ビデオオーディオテキストデータセットMUGENについて述べる。
我々は375Kビデオクリップ(それぞれ3.2秒)をサンプリングし、人間のアノテーションからテキスト記述を収集する。
論文 参考訳(メタデータ) (2022-04-17T17:59:09Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Temporally-Aware Feature Pooling for Action Spotting in Soccer
Broadcasts [86.56462654572813]
私たちは、サッカーの試合の主なアクションを一時的にローカライズするサッカー放送におけるアクションスポッティングの分析に焦点を当てています。
時間的知識を組み込んだNetVLAD++という,NetVLADに基づく新たな機能プーリング手法を提案する。
我々は最近の大規模データセット SoccerNet-v2 の方法論をトレーニングし、評価し、アクションスポッティングのための平均平均mAP 53.4% に達した。
論文 参考訳(メタデータ) (2021-04-14T11:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。