論文の概要: Leveraging LLM Agents for Automated Video Game Testing
- arxiv url: http://arxiv.org/abs/2509.22170v1
- Date: Fri, 26 Sep 2025 10:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.37011
- Title: Leveraging LLM Agents for Automated Video Game Testing
- Title(参考訳): 自動ゲームテストのためのLLMエージェントの活用
- Authors: Chengjia Wang, Lanling Tang, Ming Yuan, Jiongchi Yu, Xiaofei Xie, Jiajun Bu,
- Abstract要約: Tests MMORPGs(Massively Multiplayer Online Role-Playing Games)は、ゲーム開発において重要な作業である。
これらの課題に対処するため,知的MMORPGテストのための効果的なLLM駆動エージェントフレームワークであるTITANを提案する。
我々はTITANのプロトタイプを実装し、PCとモバイルプラットフォームにまたがる2つの大規模商用MMORPG上で評価する。
- 参考スコア(独自算出の注目度): 27.85022072249338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Testing MMORPGs (Massively Multiplayer Online Role-Playing Games) is a critical yet labor-intensive task in game development due to their complexity and frequent updating nature. Traditional automated game testing approaches struggle to achieve high state coverage and efficiency in these rich, open-ended environments, while existing LLM-based game-playing approaches are limited to shallow reasoning ability in understanding complex game state-action spaces and long-complex tasks. To address these challenges, we propose TITAN, an effective LLM-driven agent framework for intelligent MMORPG testing. TITAN incorporates four key components to: (1) perceive and abstract high-dimensional game states, (2) proactively optimize and prioritize available actions, (3) enable long-horizon reasoning with action trace memory and reflective self-correction, and (4) employ LLM-based oracles to detect potential functional and logic bugs with diagnostic reports. We implement the prototype of TITAN and evaluate it on two large-scale commercial MMORPGs spanning both PC and mobile platforms. In our experiments, TITAN achieves significantly higher task completion rates (95%) and bug detection performance compared to existing automated game testing approaches. An ablation study further demonstrates that each core component of TITAN contributes substantially to its overall performance. Notably, TITAN detects four previously unknown bugs that prior testing approaches fail to identify. We provide an in-depth discussion of these results, which offer guidance for new avenues of advancing intelligent, general-purpose testing systems. Moreover, TITAN has been deployed in eight real-world game QA pipelines, underscoring its practical impact as an LLM-driven game testing framework.
- Abstract(参考訳): マルチプレイヤーオンラインロールプレイングゲーム(Massively Multiplayer Online Role-Playing Games)は、複雑で頻繁な更新性のため、ゲーム開発において重要な作業である。
従来の自動ゲームテストアプローチは、これらのリッチでオープンな環境で高い状態カバレッジと効率を達成するのに苦労するが、既存のLLMベースのゲームプレイングアプローチは、複雑なゲーム状態アクション空間や長時間複雑なタスクを理解するための浅い推論能力に限られる。
これらの課題に対処するために,知的MMORPGテストのための効果的なLLM駆動エージェントフレームワークであるTITANを提案する。
TITANは,(1)高次元ゲーム状態の知覚と抽象化,(2)利用可能な動作の事前最適化と優先順位付け,(3)動作トレースメモリと反射自己補正による長期水平推論の実現,(4)LCMベースのオラクルを用いて,診断レポートによる潜在的な機能的および論理的バグの検出を行う。
我々はTITANのプロトタイプを実装し、PCとモバイルプラットフォームにまたがる2つの大規模商用MMORPG上で評価する。
本実験では,既存の自動ゲームテスト手法と比較してタスク完了率(95%)とバグ検出性能が有意に向上した。
アブレーション研究では、TITANの各コアコンポーネントがその全体的なパフォーマンスに大きく貢献することを示した。
特にTITANは、以前のテストアプローチで特定できなかった4つの既知のバグを検出する。
我々はこれらの結果について詳細な議論を行い、インテリジェントで汎用的なテストシステムを進化させる新しい方法のガイダンスを提供する。
さらに、TITANは8つの現実世界のゲームQAパイプラインにデプロイされており、LLM駆動のゲームテストフレームワークとしての実践的な影響を強調している。
関連論文リスト
- Cultivating Game Sense for Yourself: Making VLMs Gaming Experts [23.370716496046217]
ゲームプレイエージェント設計におけるパラダイムシフトを提案する。
ゲームプレイを直接制御する代わりに、VLMは射撃や戦闘などのタスクに適した特殊な実行モジュールを開発する。
これらのモジュールはリアルタイムゲームインタラクションを処理し、VLMをハイレベルな開発者に高める。
論文 参考訳(メタデータ) (2025-03-27T08:40:47Z) - AVA: Attentive VLM Agent for Mastering StarCraft II [56.07921367623274]
Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-03-07T12:54:25Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games [26.07074182316433]
本稿では,Jubenshaに特化している最初のデータセットについて紹介する。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-12-01T17:33:57Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。