Fugu-MT 論文翻訳(概要): Large Language Models are Pretty Good Zero-Shot Video Game Bug Detectors

論文の概要: Large Language Models are Pretty Good Zero-Shot Video Game Bug Detectors

arxiv url: http://arxiv.org/abs/2210.02506v1
Date: Wed, 5 Oct 2022 18:44:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 17:02:09.931285
Title: Large Language Models are Pretty Good Zero-Shot Video Game Bug Detectors
Title（参考訳）: 大型言語モデルは、かなり良いゼロショットビデオゲームのバグ検知器だ
Authors: Mohammad Reza Taesiri, Finlay Macklon, Yihe Wang, Hengshuo Shen, Cor-Paul Bezemer
Abstract要約: 大規模言語モデルでは,ゲームからのイベントのテキスト記述のシーケンスにおいて,どのイベントがバギーであるかを識別できることを示す。この結果から,ビデオゲームのバグ検出に言語モデルを用いた場合の有望な結果が得られた。
参考スコア（独自算出の注目度）: 3.39487428163997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video game testing requires game-specific knowledge as well as common sense reasoning about the events in the game. While AI-driven agents can satisfy the first requirement, it is not yet possible to meet the second requirement automatically. Therefore, video game testing often still relies on manual testing, and human testers are required to play the game thoroughly to detect bugs. As a result, it is challenging to fully automate game testing. In this study, we explore the possibility of leveraging the zero-shot capabilities of large language models for video game bug detection. By formulating the bug detection problem as a question-answering task, we show that large language models can identify which event is buggy in a sequence of textual descriptions of events from a game. To this end, we introduce the GameBugDescriptions benchmark dataset, which consists of 167 buggy gameplay videos and a total of 334 question-answer pairs across 8 games. We extensively evaluate the performance of six models across the OPT and InstructGPT large language model families on our benchmark dataset. Our results show promising results for employing language models to detect video game bugs. With the proper prompting technique, we could achieve an accuracy of 70.66%, and on some video games, up to 78.94%. Our code, evaluation data and the benchmark can be found on https://asgaardlab.github.io/LLMxBugs
Abstract（参考訳）: ビデオゲームのテストにはゲーム固有の知識と、ゲーム内のイベントに関する常識的な推論が必要です。 AI駆動エージェントは第1の要件を満たすことができるが、第2の要件を自動で満たすことはできない。そのため、ビデオゲームのテストは依然として手動テストに依存しており、人間のテスターはバグを検出するためにゲームを徹底的にプレイする必要がある。その結果,ゲームテストの完全自動化は困難である。本研究では,大規模言語モデルのゼロショット機能を利用したゲームバグ検出の可能性を検討する。バグ検出問題を質問応答タスクとして定式化することにより、ゲームからのイベントのテキスト記述のシーケンスにおいて、大きな言語モデルでどのイベントがバグであるかを識別できることを示す。そこで本研究では,ゲームプレイ167本と8ゲーム合計334本からなるgamebugdescriptionsベンチマークデータセットを紹介する。 OPTおよびインストラクトGPT大言語モデルファミリーの6つのモデルの性能をベンチマークデータセット上で広範囲に評価した。本研究は,ビデオゲームのバグ検出に言語モデルを用いた場合の有望な結果を示す。適切なプロンプト技術により、70.66%の精度を達成でき、いくつかのビデオゲームでは78.94%まで向上した。私たちのコード、評価データ、ベンチマークはhttps://asgaardlab.github.io/LLMxBugsで確認できる。

関連論文リスト

Automated Bug Frame Retrieval from Gameplay Videos Using Vision-Language Models [47.63488459021783]
報告されたバグ記述に最もよくマッチする単一のフレームに、各動画を縮小するパイプラインを導入する。このアプローチは手作業を大幅に削減し、トリアージと回帰チェックを高速化します。ゲーム業界全体で品質保証チームや開発者に実践的なメリットを提供する。
論文参考訳（メタデータ） (2025-08-06T21:52:15Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
Deriving and Evaluating a Detailed Taxonomy of Game Bugs [2.2136561577994858]
この研究の目的は、ゲーム開発者がバグに耐性のあるゲームを開発するのに役立つバグ分類を提供することだ。ゲーム開発業界で発生したバグを報告した189件(学術文献78件,灰色111件)の資料の中から,436件の資料を分析し,MLR(Multivocal Literature Review)を行った。 MLRにより、エンドユーザーの視点から63のゲームバグカテゴリの詳細な分類を確定することができた。
論文参考訳（メタデータ） (2023-11-28T09:51:42Z)
Finding the Needle in a Haystack: Detecting Bug Occurrences in Gameplay Videos [10.127506928281413]
本稿では、機械学習を用いて、ゲームプレイビデオの一部にバグの描写が含まれているかどうかを予測する自動化アプローチを提案する。我々は、198本のゲームプレイビデオの4,412のセグメントを分析し、あるセグメントがバグのインスタンスを含んでいるかどうかを予測する。本手法は, バグを含む映像のセグメント検出に有効であり, F1スコア0.88を達成し, バグ分類の最先端技術よりも優れていた。
論文参考訳（メタデータ） (2023-11-18T01:14:18Z)
Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文参考訳（メタデータ） (2023-05-23T07:54:37Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文参考訳（メタデータ） (2022-12-07T18:17:56Z)
Learning to Identify Perceptual Bugs in 3D Video Games [1.370633147306388]
そこで本研究では,学習に基づく手法を用いて,知覚的バグの範囲を同定できることを示す。 World of Bugs (WOB)は、3Dゲーム環境でABDメソッドをテストするオープンプラットフォームである。
論文参考訳（メタデータ） (2022-02-25T18:50:11Z)
CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文参考訳（メタデータ） (2022-01-14T06:49:15Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。