論文の概要: CLIP meets GamePhysics: Towards bug identification in gameplay videos
using zero-shot transfer learning
- arxiv url: http://arxiv.org/abs/2203.11096v2
- Date: Tue, 22 Mar 2022 23:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 11:51:03.322959
- Title: CLIP meets GamePhysics: Towards bug identification in gameplay videos
using zero-shot transfer learning
- Title(参考訳): CLIPとGamePhysics:ゼロショット転送学習を用いたゲームプレイビデオのバグ識別
- Authors: Mohammad Reza Taesiri, Finlay Macklon, Cor-Paul Bezemer
- Abstract要約: 本稿では,関連するゲームプレイ映像を検索するために,英語のテキストクエリを入力として受け入れる検索手法を提案する。
われわれのアプローチは外部情報(ビデオメタデータなど)に頼らない。
我々のアプローチの例としては、ビデオゲームのバグを再現するためのゲームプレイ用ビデオ検索エンジンがある。
- 参考スコア(独自算出の注目度): 4.168157981135698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gameplay videos contain rich information about how players interact with the
game and how the game responds. Sharing gameplay videos on social media
platforms, such as Reddit, has become a common practice for many players.
Often, players will share gameplay videos that showcase video game bugs. Such
gameplay videos are software artifacts that can be utilized for game testing,
as they provide insight for bug analysis. Although large repositories of
gameplay videos exist, parsing and mining them in an effective and structured
fashion has still remained a big challenge. In this paper, we propose a search
method that accepts any English text query as input to retrieve relevant videos
from large repositories of gameplay videos. Our approach does not rely on any
external information (such as video metadata); it works solely based on the
content of the video. By leveraging the zero-shot transfer capabilities of the
Contrastive Language-Image Pre-Training (CLIP) model, our approach does not
require any data labeling or training. To evaluate our approach, we present the
$\texttt{GamePhysics}$ dataset consisting of 26,954 videos from 1,873 games,
that were collected from the GamePhysics section on the Reddit website. Our
approach shows promising results in our extensive analysis of simple queries,
compound queries, and bug queries, indicating that our approach is useful for
object and event detection in gameplay videos. An example application of our
approach is as a gameplay video search engine to aid in reproducing video game
bugs. Please visit the following link for the code and the data:
https://asgaardlab.github.io/CLIPxGamePhysics/
- Abstract(参考訳): ゲームプレイビデオには、プレイヤーがゲームとどのように相互作用し、ゲームがどのように反応するかについての豊富な情報が含まれている。
redditなどのソーシャルメディアプラットフォームでゲームプレイビデオを共有することは、多くのプレイヤーにとって一般的なプラクティスとなっている。
多くの場合、プレイヤーはビデオゲームのバグを示すゲームプレイビデオを共有する。
このようなゲームプレイビデオは、バグ分析の洞察を提供するため、ゲームテストに使用できるソフトウェアアーティファクトである。
ゲームプレイビデオの大規模なリポジトリは存在するが、効果的で構造化された方法で解析し、マイニングすることは依然として大きな課題である。
本稿では,ゲームプレイビデオの大規模リポジトリから関連映像を検索するために,任意の英語テキストクエリを入力として受け入れる検索手法を提案する。
われわれのアプローチは外部情報(ビデオメタデータなど)に頼らず、ビデオの内容にのみ依存して機能する。
Contrastive Language-Image Pre-Training(CLIP)モデルのゼロショット転送機能を活用することで、我々のアプローチはデータラベリングやトレーニングを必要としない。
このアプローチを評価するために、redditウェブサイトのgamephysicsセクションから収集された1,873本のゲームから26,954本のビデオからなる$\texttt{gamephysics}$データセットを提示した。
本手法は,単純クエリ,複合クエリ,バグクエリの広範な分析において有望な結果を示し,ゲームプレイビデオのオブジェクト検出やイベント検出に有用であることを示す。
このアプローチの例として、ビデオゲームのバグの再現を支援するゲームプレイビデオ検索エンジンがあります。
コードとデータについては以下のリンクを参照してください。 https://asgaardlab.github.io/clipxgamephysics/
関連論文リスト
- VideoGameBunny: Towards vision assistants for video games [4.652236080354487]
本稿では,BunnyをベースとしたLLaVAスタイルモデルであるVideoGameBunnyの開発について述べる。
中間チェックポイント、トレーニングログ、および413タイトルから185,259のビデオゲーム画像からなる広範なデータセットをリリースする。
実験の結果,我々の高品質なゲーム関連データにより,比較的小さなモデルが,最先端モデルであるLLaVa-1.6-34bよりも優れている可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-21T23:31:57Z) - Finding the Needle in a Haystack: Detecting Bug Occurrences in Gameplay
Videos [10.127506928281413]
本稿では、機械学習を用いて、ゲームプレイビデオの一部にバグの描写が含まれているかどうかを予測する自動化アプローチを提案する。
我々は、198本のゲームプレイビデオの4,412のセグメントを分析し、あるセグメントがバグのインスタンスを含んでいるかどうかを予測する。
本手法は, バグを含む映像のセグメント検出に有効であり, F1スコア0.88を達成し, バグ分類の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2023-11-18T01:14:18Z) - Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Using Gameplay Videos for Detecting Issues in Video Games [14.41863992598613]
ストリーマーは、プレイ中にいくつかの問題(バグ、不具合、パフォーマンス問題など)に遭遇する可能性がある。
特定された問題はユーザのゲーム体験に悪影響を及ぼし、ゲームやプロデューサーの評判に悪影響を及ぼす可能性がある。
本稿では,ゲームプレイビデオから関連情報を自動抽出するGELIDを提案する。
論文 参考訳(メタデータ) (2023-07-27T10:16:04Z) - TG-VQA: Ternary Game of Video Question Answering [33.180788803602084]
ビデオ質問応答は、その中のアライメントセマンティクスを推論することで、ビデオコンテンツに関する質問に答えることを目的としている。
本研究では,特定のインタラクション戦略を持つ複数のプレイヤー間の複雑な関係をシミュレートするゲーム理論を革新的に活用する。
具体的には,ビデオQA固有のインタラクション戦略を慎重に設計し,ラベルに重きを置くことなく,微粒な視覚言語アライメントラベルを数学的に生成することができる。
論文 参考訳(メタデータ) (2023-05-17T08:42:53Z) - GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for
Real-time Soccer Commentary Generation [75.60413443783953]
我々は,KGVC(Knowledge-grounded Video Captioning)として新たなタスク設定を提案するための,8.9k以上のサッカービデオクリップ,22kの文,42kの知識トリプルのベンチマークであるGOALを提案する。
私たちのデータとコードはhttps://github.com/THU-KEG/goal.orgで公開されています。
論文 参考訳(メタデータ) (2023-03-26T08:43:36Z) - Subjective and Objective Analysis of Streamed Gaming Videos [60.32100758447269]
ゲームビデオにおける主観的および客観的ビデオ品質評価(VQA)モデルについて検討する。
LIVE-YouTube Gaming Video Quality (LIVE-YT-Gaming) と呼ばれる新しいゲームビデオリソースを作成しました。
このデータについて主観的人間調査を行い,61名の被験者が記録した品質評価18,600名を得た。
論文 参考訳(メタデータ) (2022-03-24T03:02:57Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - What is More Likely to Happen Next? Video-and-Language Future Event
Prediction [111.93601253692165]
対話が整ったビデオの場合、人々は次に何が起こるかを見極めることができる。
本研究では,AIモデルがこのようなマルチモーダル・コモンセンスの次世代予測を学べるかどうかを考察する。
新しいデータセットであるVideo-and-Language Event Prediction(ビデオ・アンド・ランゲージ・イベント予測)を収集します。
論文 参考訳(メタデータ) (2020-10-15T19:56:47Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。