論文の概要: Towards LLM-Based Automatic Playtest
- arxiv url: http://arxiv.org/abs/2507.09490v1
- Date: Sun, 13 Jul 2025 04:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.358486
- Title: Towards LLM-Based Automatic Playtest
- Title(参考訳): LLMによる自動プレイテストに向けて
- Authors: Yan Zhao, Chiwei Tang,
- Abstract要約: プレイテストは、ゲームソフトウェアの品質保証に不可欠である。
人工知能(AI)の最近の進歩は、大規模言語モデル(LLM)をプレイテストに適用する新たな可能性を開いた。
本稿では,新しい自動プレイテスト手法であるLapを紹介する。
- 参考スコア(独自算出の注目度): 1.9714447272714082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Playtesting is the process in which people play a video game for testing. It is critical for the quality assurance of gaming software. Manual playtesting is time-consuming and expensive. However, automating this process is challenging, as playtesting typically requires domain knowledge and problem-solving skills that most conventional testing tools lack. Recent advancements in artificial intelligence (AI) have opened up new possibilities for applying Large Language Models (LLMs) to playtesting. However, significant challenges remain: current LLMs cannot visually perceive game environments, and most existing research focuses on text-based games or games with robust APIs. Many non-text games lack APIs to provide textual descriptions of game states, making it almost impossible to naively apply LLMs for playtesting. This paper introduces Lap, our novel approach to LLM-based Automatic Playtesting, which uses ChatGPT to test match-3 games, a category of games where players match three or more identical tiles in a row or column to earn points. Lap encompasses three key phases: processing of game environments, prompting-based action generation, and action execution. Given a match-3 game, Lap takes a snapshot of the game board and converts it to a numeric matrix. It then prompts the ChatGPT-O1-mini API to suggest moves based on that matrix and tentatively applies the suggested moves to earn points and trigger changes in the game board. It repeats the above-mentioned three steps iteratively until timeout. For evaluation, we conducted a case study using Lap on an open-source match-3 game, CasseBonbons, and empirically compared it with three existing tools. Our results are promising: Lap outperformed existing tools by achieving higher code coverage and triggering more program crashes. This research sheds light on the future of automatic testing and LLM applications.
- Abstract(参考訳): プレイテスト(Playtesting)とは、人々がテストのためにビデオゲームをするプロセスである。
ゲームソフトの品質保証には欠かせない。
手動のプレイテストは時間と費用がかかります。
しかし、このプロセスを自動化することは難しい。通常、プレイテストはドメイン知識と従来のテストツールに欠けている問題解決スキルを必要とする。
人工知能(AI)の最近の進歩は、大規模言語モデル(LLM)をプレイテストに適用する新たな可能性を開いた。
しかし、現在のLLMはゲーム環境を視覚的に知覚することができず、既存の研究は、堅牢なAPIを持つテキストベースのゲームやゲームに焦点を当てている。
多くの非テキストゲームは、ゲーム状態のテキスト記述を提供するAPIを欠いているため、プレイテストに LLM を適用することはほとんど不可能である。
本稿では,LLMベースの自動プレイテストの新たなアプローチであるLapを紹介し,ChatGPTを用いてマッチ3ゲームをテストする。
Lapにはゲーム環境の処理、プロンプトベースのアクション生成、アクション実行という3つの重要なフェーズが含まれている。
マッチ3のゲームが与えられたら、Lapはゲームボードのスナップショットを取得し、それを数値行列に変換する。
次に、ChatGPT-O1-mini APIに、その行列に基づいて動きを推奨させ、提案された動きを暫定的に適用してポイントを獲得し、ゲームボードの変更をトリガーする。
上記の3ステップをタイムアウトまで繰り返します。
評価のために,オープンソースのMatch-3ゲームであるCasseBonbonsでLapを用いてケーススタディを行い,既存の3つのツールと経験的に比較した。
Lapは、より高いコードカバレッジを達成し、より多くのプログラムクラッシュを引き起こすことで、既存のツールよりも優れています。
この研究は、自動テストとLLM応用の将来に光を当てている。
関連論文リスト
- Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - lmgame-Bench: How Good are LLMs at Playing Games? [60.01834131847881]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。
我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文 参考訳(メタデータ) (2025-05-21T06:02:55Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - Cooperative Multi-agent Approach for Automated Computer Game Testing [1.4931265249949526]
近年、多くのゲームがマルチプレイヤーであり、このようなゲームをテストするために複数の協調テストエージェントをデプロイする興味深い可能性を秘めている。
本稿では,ラボ・リクルート(Lab Recruits)と呼ばれる3Dゲームにおけるケーススタディに基づく,協調型マルチエージェント・テスト手法とその性能に関する研究について述べる。
論文 参考訳(メタデータ) (2024-05-18T17:31:26Z) - PlayTest: A Gamified Test Generator for Games [11.077232808482128]
Playtestは、タイリングテストプロセスを目的のある競争ゲームに変換する。
プレイテストフェーズでは,プレイテストの段階において,プレイヤーがツールを介して各ゲームにアクセスできるようにすることで,ゲームテストのタスクをクラウドソーシングするために,Playtestを使用することを想定する。
論文 参考訳(メタデータ) (2023-10-30T10:14:27Z) - SmartPlay: A Benchmark for LLMs as Intelligent Agents [45.76707302899935]
SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど,6つの異なるゲームで構成されている。
各ゲームは知的LLMエージェントの9つの重要な能力のサブセットに挑戦する。
テストには、オブジェクト依存による推論、事前計画、空間的推論、履歴からの学習、ランダムさの理解が含まれる。
論文 参考訳(メタデータ) (2023-10-02T18:52:11Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI
Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。
そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。
Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文 参考訳(メタデータ) (2023-05-16T13:46:52Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。