論文の概要: Large Language Models are Pretty Good Zero-Shot Video Game Bug Detectors
- arxiv url: http://arxiv.org/abs/2210.02506v1
- Date: Wed, 5 Oct 2022 18:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 17:02:09.931285
- Title: Large Language Models are Pretty Good Zero-Shot Video Game Bug Detectors
- Title(参考訳): 大型言語モデルは、かなり良いゼロショットビデオゲームのバグ検知器だ
- Authors: Mohammad Reza Taesiri, Finlay Macklon, Yihe Wang, Hengshuo Shen,
Cor-Paul Bezemer
- Abstract要約: 大規模言語モデルでは,ゲームからのイベントのテキスト記述のシーケンスにおいて,どのイベントがバギーであるかを識別できることを示す。
この結果から,ビデオゲームのバグ検出に言語モデルを用いた場合の有望な結果が得られた。
- 参考スコア(独自算出の注目度): 3.39487428163997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video game testing requires game-specific knowledge as well as common sense
reasoning about the events in the game. While AI-driven agents can satisfy the
first requirement, it is not yet possible to meet the second requirement
automatically. Therefore, video game testing often still relies on manual
testing, and human testers are required to play the game thoroughly to detect
bugs. As a result, it is challenging to fully automate game testing. In this
study, we explore the possibility of leveraging the zero-shot capabilities of
large language models for video game bug detection. By formulating the bug
detection problem as a question-answering task, we show that large language
models can identify which event is buggy in a sequence of textual descriptions
of events from a game. To this end, we introduce the GameBugDescriptions
benchmark dataset, which consists of 167 buggy gameplay videos and a total of
334 question-answer pairs across 8 games. We extensively evaluate the
performance of six models across the OPT and InstructGPT large language model
families on our benchmark dataset. Our results show promising results for
employing language models to detect video game bugs. With the proper prompting
technique, we could achieve an accuracy of 70.66%, and on some video games, up
to 78.94%. Our code, evaluation data and the benchmark can be found on
https://asgaardlab.github.io/LLMxBugs
- Abstract(参考訳): ビデオゲームのテストにはゲーム固有の知識と、ゲーム内のイベントに関する常識的な推論が必要です。
AI駆動エージェントは第1の要件を満たすことができるが、第2の要件を自動で満たすことはできない。
そのため、ビデオゲームのテストは依然として手動テストに依存しており、人間のテスターはバグを検出するためにゲームを徹底的にプレイする必要がある。
その結果,ゲームテストの完全自動化は困難である。
本研究では,大規模言語モデルのゼロショット機能を利用したゲームバグ検出の可能性を検討する。
バグ検出問題を質問応答タスクとして定式化することにより、ゲームからのイベントのテキスト記述のシーケンスにおいて、大きな言語モデルでどのイベントがバグであるかを識別できることを示す。
そこで本研究では,ゲームプレイ167本と8ゲーム合計334本からなるgamebugdescriptionsベンチマークデータセットを紹介する。
OPTおよびインストラクトGPT大言語モデルファミリーの6つのモデルの性能をベンチマークデータセット上で広範囲に評価した。
本研究は,ビデオゲームのバグ検出に言語モデルを用いた場合の有望な結果を示す。
適切なプロンプト技術により、70.66%の精度を達成でき、いくつかのビデオゲームでは78.94%まで向上した。
私たちのコード、評価データ、ベンチマークはhttps://asgaardlab.github.io/LLMxBugsで確認できる。
関連論文リスト
- GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Deriving and Evaluating a Detailed Taxonomy of Game Bugs [2.2136561577994858]
この研究の目的は、ゲーム開発者がバグに耐性のあるゲームを開発するのに役立つバグ分類を提供することだ。
ゲーム開発業界で発生したバグを報告した189件(学術文献78件,灰色111件)の資料の中から,436件の資料を分析し,MLR(Multivocal Literature Review)を行った。
MLRにより、エンドユーザーの視点から63のゲームバグカテゴリの詳細な分類を確定することができた。
論文 参考訳(メタデータ) (2023-11-28T09:51:42Z) - Finding the Needle in a Haystack: Detecting Bug Occurrences in Gameplay
Videos [10.127506928281413]
本稿では、機械学習を用いて、ゲームプレイビデオの一部にバグの描写が含まれているかどうかを予測する自動化アプローチを提案する。
我々は、198本のゲームプレイビデオの4,412のセグメントを分析し、あるセグメントがバグのインスタンスを含んでいるかどうかを予測する。
本手法は, バグを含む映像のセグメント検出に有効であり, F1スコア0.88を達成し, バグ分類の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2023-11-18T01:14:18Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Learning to Identify Perceptual Bugs in 3D Video Games [1.370633147306388]
そこで本研究では,学習に基づく手法を用いて,知覚的バグの範囲を同定できることを示す。
World of Bugs (WOB)は、3Dゲーム環境でABDメソッドをテストするオープンプラットフォームである。
論文 参考訳(メタデータ) (2022-02-25T18:50:11Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。