論文の概要: Leveraging LLM Agents for Automated Video Game Testing
- arxiv url: http://arxiv.org/abs/2509.22170v1
- Date: Fri, 26 Sep 2025 10:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.37011
- Title: Leveraging LLM Agents for Automated Video Game Testing
- Title(参考訳): 自動ゲームテストのためのLLMエージェントの活用
- Authors: Chengjia Wang, Lanling Tang, Ming Yuan, Jiongchi Yu, Xiaofei Xie, Jiajun Bu,
- Abstract要約: Tests MMORPGs(Massively Multiplayer Online Role-Playing Games)は、ゲーム開発において重要な作業である。
これらの課題に対処するため,知的MMORPGテストのための効果的なLLM駆動エージェントフレームワークであるTITANを提案する。
我々はTITANのプロトタイプを実装し、PCとモバイルプラットフォームにまたがる2つの大規模商用MMORPG上で評価する。
- 参考スコア(独自算出の注目度): 27.85022072249338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Testing MMORPGs (Massively Multiplayer Online Role-Playing Games) is a critical yet labor-intensive task in game development due to their complexity and frequent updating nature. Traditional automated game testing approaches struggle to achieve high state coverage and efficiency in these rich, open-ended environments, while existing LLM-based game-playing approaches are limited to shallow reasoning ability in understanding complex game state-action spaces and long-complex tasks. To address these challenges, we propose TITAN, an effective LLM-driven agent framework for intelligent MMORPG testing. TITAN incorporates four key components to: (1) perceive and abstract high-dimensional game states, (2) proactively optimize and prioritize available actions, (3) enable long-horizon reasoning with action trace memory and reflective self-correction, and (4) employ LLM-based oracles to detect potential functional and logic bugs with diagnostic reports. We implement the prototype of TITAN and evaluate it on two large-scale commercial MMORPGs spanning both PC and mobile platforms. In our experiments, TITAN achieves significantly higher task completion rates (95%) and bug detection performance compared to existing automated game testing approaches. An ablation study further demonstrates that each core component of TITAN contributes substantially to its overall performance. Notably, TITAN detects four previously unknown bugs that prior testing approaches fail to identify. We provide an in-depth discussion of these results, which offer guidance for new avenues of advancing intelligent, general-purpose testing systems. Moreover, TITAN has been deployed in eight real-world game QA pipelines, underscoring its practical impact as an LLM-driven game testing framework.
- Abstract(参考訳): マルチプレイヤーオンラインロールプレイングゲーム(Massively Multiplayer Online Role-Playing Games)は、複雑で頻繁な更新性のため、ゲーム開発において重要な作業である。
従来の自動ゲームテストアプローチは、これらのリッチでオープンな環境で高い状態カバレッジと効率を達成するのに苦労するが、既存のLLMベースのゲームプレイングアプローチは、複雑なゲーム状態アクション空間や長時間複雑なタスクを理解するための浅い推論能力に限られる。
これらの課題に対処するために,知的MMORPGテストのための効果的なLLM駆動エージェントフレームワークであるTITANを提案する。
TITANは,(1)高次元ゲーム状態の知覚と抽象化,(2)利用可能な動作の事前最適化と優先順位付け,(3)動作トレースメモリと反射自己補正による長期水平推論の実現,(4)LCMベースのオラクルを用いて,診断レポートによる潜在的な機能的および論理的バグの検出を行う。
我々はTITANのプロトタイプを実装し、PCとモバイルプラットフォームにまたがる2つの大規模商用MMORPG上で評価する。
本実験では,既存の自動ゲームテスト手法と比較してタスク完了率(95%)とバグ検出性能が有意に向上した。
アブレーション研究では、TITANの各コアコンポーネントがその全体的なパフォーマンスに大きく貢献することを示した。
特にTITANは、以前のテストアプローチで特定できなかった4つの既知のバグを検出する。
我々はこれらの結果について詳細な議論を行い、インテリジェントで汎用的なテストシステムを進化させる新しい方法のガイダンスを提供する。
さらに、TITANは8つの現実世界のゲームQAパイプラインにデプロイされており、LLM駆動のゲームテストフレームワークとしての実践的な影響を強調している。
関連論文リスト
- TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents [5.173133826653683]
本稿では,RTSゲームにおけるタワー防衛サブジャンルを基盤とした,新しい環境であるタワーミンドを紹介する。
我々は、広く使われている大規模言語モデルを評価するために、5つのベンチマークレベルを設計する。
その結果、LLMと人間の専門家の能力と幻覚の両面において、明らかなパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2026-01-09T16:18:08Z) - GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games [7.594173359523366]
GVGAI-LLMは,大規模言語モデル(LLM)の推論と問題解決能力を評価するためのゲームベンチマークである。
General Video Game AIフレームワーク上に構築され、既存のLLMベンチマークとは異なるタスクを処理するモデルの能力をテストするために設計された、アーケードスタイルのゲームの多種多様なコレクションを備えている。
論文 参考訳(メタデータ) (2025-08-11T22:17:07Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Cultivating Game Sense for Yourself: Making VLMs Gaming Experts [23.370716496046217]
ゲームプレイエージェント設計におけるパラダイムシフトを提案する。
ゲームプレイを直接制御する代わりに、VLMは射撃や戦闘などのタスクに適した特殊な実行モジュールを開発する。
これらのモジュールはリアルタイムゲームインタラクションを処理し、VLMをハイレベルな開発者に高める。
論文 参考訳(メタデータ) (2025-03-27T08:40:47Z) - AVA: Attentive VLM Agent for Mastering StarCraft II [56.07921367623274]
Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-03-07T12:54:25Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games [26.07074182316433]
本稿では,Jubenshaに特化している最初のデータセットについて紹介する。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-12-01T17:33:57Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。