論文の概要: Gameplay Highlights Generation
- arxiv url: http://arxiv.org/abs/2505.07721v1
- Date: Mon, 12 May 2025 16:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.486847
- Title: Gameplay Highlights Generation
- Title(参考訳): ゲームプレイのハイライト生成
- Authors: Vignesh Edithal, Le Zhang, Ilia Blank, Imran Junejo,
- Abstract要約: この作業により、ゲーマーは、ゲームプレイセッションから目を引くハイライトリールを自動的に生成することで、ソーシャルメディア上でゲーム体験を共有することができる。
我々は、VIAビデオアノテータを用いて、人間が注釈付けした興味深いイベントを含む、社内ゲームプレイイベント検出データセットを開発した。
マルチモーダルな汎用ビデオ理解モデルであるX-CLIPを,ゲームエンジニアリングを使わずに複数のジャンルにまたがって一般化するデータセットを用いて微調整した。
- 参考スコア(独自算出の注目度): 3.019500891118183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we enable gamers to share their gaming experience on social media by automatically generating eye-catching highlight reels from their gameplay session Our automation will save time for gamers while increasing audience engagement. We approach the highlight generation problem by first identifying intervals in the video where interesting events occur and then concatenate them. We developed an in-house gameplay event detection dataset containing interesting events annotated by humans using VIA video annotator. Traditional techniques for highlight detection such as game engine integration requires expensive collaboration with game developers. OCR techniques which detect patches of specific images or texts require expensive per game engineering and may not generalize across game UI and different language. We finetuned a multimodal general purpose video understanding model such as X-CLIP using our dataset which generalizes across multiple games in a genre without per game engineering. Prompt engineering was performed to improve the classification performance of this multimodal model. Our evaluation showed that such a finetuned model can detect interesting events in first person shooting games from unseen gameplay footage with more than 90% accuracy. Moreover, our model performed significantly better on low resource games (small dataset) when trained along with high resource games, showing signs of transfer learning. To make the model production ready, we used ONNX libraries to enable cross platform inference. These libraries also provide post training quantization tools to reduce model size and inference time for deployment. ONNX runtime libraries with DirectML backend were used to perform efficient inference on Windows OS. We show that natural language supervision in the X-CLIP model leads to data efficient and highly performant video recognition models.
- Abstract(参考訳): 本研究では,ゲームプレイセッションから目を引くハイライトリールを自動的に生成することで,ゲーマーがソーシャルメディア上でゲーム体験を共有することを可能にする。
まず、興味あるイベントが発生する動画の間隔を識別し、それらを結合することでハイライト生成問題にアプローチする。
我々は、VIAビデオアノテータを用いて、人間が注釈付けした興味深いイベントを含む、社内ゲームプレイイベント検出データセットを開発した。
ゲームエンジンの統合のような従来のハイライト検出技術は、ゲーム開発者との高価なコラボレーションを必要とする。
特定の画像やテキストのパッチを検出するOCR技術は、ゲームエンジニアリングごとにコストがかかり、ゲームUIと異なる言語をまたいで一般化することができない。
マルチモーダルな汎用ビデオ理解モデルであるX-CLIPを,ゲームエンジニアリングを使わずに複数のジャンルにまたがって一般化するデータセットを用いて微調整した。
このマルチモーダルモデルの分類性能を向上させるために, プロンプト工学を行った。
評価の結果、このような微調整されたモデルでは、90%以上の精度で未確認のゲームプレイ映像から、最初に撮影する人物の興味深い出来事を検出できることがわかった。
さらに,本モデルでは,低リソースゲーム(小データセット)と高リソースゲームとを併用したトレーニングを行い,転送学習の兆候を示した。
モデルプロダクションを準備するために、クロスプラットフォームの推論を可能にするために、ONNXライブラリを使用しました。
これらのライブラリはまた、モデルのサイズとデプロイメントの推測時間を削減するためのポストトレーニング量子化ツールも提供する。
DirectMLバックエンドを備えたONNXランタイムライブラリは、Windows OS上で効率的な推論を行うために使用された。
我々は、X-CLIPモデルにおける自然言語の監督が、データの効率的かつ高性能なビデオ認識モデルに繋がることを示す。
関連論文リスト
- GameFactory: Creating New Games with Generative Interactive Videos [32.98135338530966]
生成ビデオは、新しいコンテンツを自律的に作成することによって、ゲーム開発に革命をもたらす可能性がある。
本稿では,アクション制御型シーン汎用ゲーム生成フレームワークであるGameFactoryを紹介する。
実験により,GameFactoryはオープンドメインアクション制御可能なゲームビデオを効果的に生成することを示した。
論文 参考訳(メタデータ) (2025-01-14T18:57:21Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Neural Game Engine: Accurate learning of generalizable forward models
from pixels [0.0]
本稿では,ピクセルから直接モデルを学習する手段として,ニューラルゲームエンジンを紹介する。
10の決定論的汎用ビデオゲームAIゲームの結果は、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-23T20:04:55Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。