論文の概要: Gameplay Highlights Generation
- arxiv url: http://arxiv.org/abs/2505.07721v1
- Date: Mon, 12 May 2025 16:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.486847
- Title: Gameplay Highlights Generation
- Title(参考訳): ゲームプレイのハイライト生成
- Authors: Vignesh Edithal, Le Zhang, Ilia Blank, Imran Junejo,
- Abstract要約: この作業により、ゲーマーは、ゲームプレイセッションから目を引くハイライトリールを自動的に生成することで、ソーシャルメディア上でゲーム体験を共有することができる。
我々は、VIAビデオアノテータを用いて、人間が注釈付けした興味深いイベントを含む、社内ゲームプレイイベント検出データセットを開発した。
マルチモーダルな汎用ビデオ理解モデルであるX-CLIPを,ゲームエンジニアリングを使わずに複数のジャンルにまたがって一般化するデータセットを用いて微調整した。
- 参考スコア(独自算出の注目度): 3.019500891118183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we enable gamers to share their gaming experience on social media by automatically generating eye-catching highlight reels from their gameplay session Our automation will save time for gamers while increasing audience engagement. We approach the highlight generation problem by first identifying intervals in the video where interesting events occur and then concatenate them. We developed an in-house gameplay event detection dataset containing interesting events annotated by humans using VIA video annotator. Traditional techniques for highlight detection such as game engine integration requires expensive collaboration with game developers. OCR techniques which detect patches of specific images or texts require expensive per game engineering and may not generalize across game UI and different language. We finetuned a multimodal general purpose video understanding model such as X-CLIP using our dataset which generalizes across multiple games in a genre without per game engineering. Prompt engineering was performed to improve the classification performance of this multimodal model. Our evaluation showed that such a finetuned model can detect interesting events in first person shooting games from unseen gameplay footage with more than 90% accuracy. Moreover, our model performed significantly better on low resource games (small dataset) when trained along with high resource games, showing signs of transfer learning. To make the model production ready, we used ONNX libraries to enable cross platform inference. These libraries also provide post training quantization tools to reduce model size and inference time for deployment. ONNX runtime libraries with DirectML backend were used to perform efficient inference on Windows OS. We show that natural language supervision in the X-CLIP model leads to data efficient and highly performant video recognition models.
- Abstract(参考訳): 本研究では,ゲームプレイセッションから目を引くハイライトリールを自動的に生成することで,ゲーマーがソーシャルメディア上でゲーム体験を共有することを可能にする。
まず、興味あるイベントが発生する動画の間隔を識別し、それらを結合することでハイライト生成問題にアプローチする。
我々は、VIAビデオアノテータを用いて、人間が注釈付けした興味深いイベントを含む、社内ゲームプレイイベント検出データセットを開発した。
ゲームエンジンの統合のような従来のハイライト検出技術は、ゲーム開発者との高価なコラボレーションを必要とする。
特定の画像やテキストのパッチを検出するOCR技術は、ゲームエンジニアリングごとにコストがかかり、ゲームUIと異なる言語をまたいで一般化することができない。
マルチモーダルな汎用ビデオ理解モデルであるX-CLIPを,ゲームエンジニアリングを使わずに複数のジャンルにまたがって一般化するデータセットを用いて微調整した。
このマルチモーダルモデルの分類性能を向上させるために, プロンプト工学を行った。
評価の結果、このような微調整されたモデルでは、90%以上の精度で未確認のゲームプレイ映像から、最初に撮影する人物の興味深い出来事を検出できることがわかった。
さらに,本モデルでは,低リソースゲーム(小データセット)と高リソースゲームとを併用したトレーニングを行い,転送学習の兆候を示した。
モデルプロダクションを準備するために、クロスプラットフォームの推論を可能にするために、ONNXライブラリを使用しました。
これらのライブラリはまた、モデルのサイズとデプロイメントの推測時間を削減するためのポストトレーニング量子化ツールも提供する。
DirectMLバックエンドを備えたONNXランタイムライブラリは、Windows OS上で効率的な推論を行うために使用された。
我々は、X-CLIPモデルにおける自然言語の監督が、データの効率的かつ高性能なビデオ認識モデルに繋がることを示す。
関連論文リスト
- Game-invariant Features Through Contrastive and Domain-adversarial Learning [0.0]
基礎的なゲームイメージエンコーダは、しばしばゲーム固有の視覚スタイルに適合する。
対照的な学習とドメイン・アドバイザリ・トレーニングを組み合わせてゲーム不変の視覚特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T22:45:51Z) - GameFactory: Creating New Games with Generative Interactive Videos [32.98135338530966]
生成ビデオは、新しいコンテンツを自律的に作成することによって、ゲーム開発に革命をもたらす可能性がある。
本稿では,アクション制御型シーン汎用ゲーム生成フレームワークであるGameFactoryを紹介する。
実験により,GameFactoryはオープンドメインアクション制御可能なゲームビデオを効果的に生成することを示した。
論文 参考訳(メタデータ) (2025-01-14T18:57:21Z) - GameGen-X: Interactive Open-world Game Video Generation [10.001128258269675]
我々は,オープンワールドゲームビデオの生成とインタラクティブ制御に特化して設計された,最初の拡散トランスフォーマーモデルであるGameGen-Xを紹介する。
革新的なキャラクター、動的環境、複雑なアクション、多様なイベントなど、一連のゲームエンジン機能をシミュレートする。
インタラクティブな制御性を提供し、現在のクリップに基づいたコンテンツの予測と将来的な変更を可能にし、ゲームプレイシミュレーションを可能にする。
論文 参考訳(メタデータ) (2024-11-01T17:59:17Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Knowledge Transfer For On-Device Speech Emotion Recognition with Neural
Structured Learning [19.220263739291685]
音声感情認識(SER)は、ヒューマン・コンピュータ・インタラクション(HCI)において人気のある研究トピックである。
合成グラフ構築によるニューラル構造化学習(NSL)フレームワークを提案する。
実験の結果,音声サンプルとグラフを用いた軽量SERモデルの訓練は,小さなSERモデルを生成するだけでなく,モデル性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-10-26T18:38:42Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Neural Game Engine: Accurate learning of generalizable forward models
from pixels [0.0]
本稿では,ピクセルから直接モデルを学習する手段として,ニューラルゲームエンジンを紹介する。
10の決定論的汎用ビデオゲームAIゲームの結果は、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-23T20:04:55Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。