論文の概要: GUI Agents for Continual Game Generation
- arxiv url: http://arxiv.org/abs/2605.28258v1
- Date: Wed, 27 May 2026 10:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.958574
- Title: GUI Agents for Continual Game Generation
- Title(参考訳): 連続ゲーム生成のためのGUIエージェント
- Authors: Yixu Huang, Bo Li, Na Li, Zhe Wang, Kaijie Chen, Haonan Ge, Qingyi Si, Yuanzhe Shen, Ruihan Yang, Guangjing Wang, Hongcheng Guo,
- Abstract要約: ゲーム生成の評価と改善にはプレイヤーが必要であると我々は主張する。
ブラウザベースのゲーム生成タスク200と,期待されるインプレイ動作のルーリックをペアリングする,新たな評価環境であるPlaytestArenaを紹介する。
本稿では,ゲームエージェントとGUIエージェントが共有メモリを持つ持続ループで動作し,ゲーム生成をコーディングとプレイの対話に変換するPlay2Codeを提案する。
- 参考スコア(独自算出の注目度): 22.25472214301186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating a game is not the same as making one that can be played. Despite advances in code generation, existing approaches treat game generation as one-shot translation from prompt to artifact, leaving interaction-level failures undetected. We argue that evaluating and improving game generation requires a player, and study two roles for graphical user interface (GUI) agents in this process: (1) as an objective evaluator, for which we introduce PlaytestArena, a new evaluation environment that pairs 200 browser-based game generation tasks across eight genres with rubrics of expected in-play behaviors, adjudicated by a GUI agent that loads each build in a browser and plays it; and (2) as a subjective playtester, for which we propose Play2Code, where a game agent and a GUI agent operate in a sustained loop with shared memory, turning game generation into a dialogue between coding and playing. Our experiments show that even frontier models struggle to generate playable games directly, while Play2Code achieves a 66.8\% rubric pass-rate, improving over single-pass and agentic-coding baselines by 37.1 and 14.6 points respectively. Further analysis shows that GUI playtester feedback is more traceable than a human report, yet idiosyncratic in ways reminiscent of human testers, establishing game playtesting as a critical testbed for interactive code generation. Our project website is available at https://continual-game-generation.vercel.app/.
- Abstract(参考訳): ゲームの生成は、プレイできるものを作るのと同じではありません。
コード生成の進歩にもかかわらず、既存のアプローチではゲーム生成をプロンプトからアーティファクトへのワンショット翻訳として扱い、インタラクションレベルの障害は検出されていない。
ゲーム生成の評価・改善にはプレイヤーが必要であると論じる一方で,(1)客観的なユーザインタフェース (GUI) エージェントの2つの役割について検討する。(1) 客観的な評価ツールとしてPlaytestArenaを導入し,200個のブラウザベースのゲーム生成タスクを8つのジャンルにまたがって組み合わせた新たな評価環境として,各ビルドをブラウザにロードして再生するGUIエージェントを適応させ,(2) 主観的なプレイスターとしてプレイ2Codeを提案し,そこではゲームエージェントとGUIエージェントが共有メモリで継続ループで動作し,ゲーム生成をコーディングと再生の対話に変換する。
実験の結果,フロンティアモデルでさえ直接プレイ可能なゲームを生成するのに苦労し,Play2Codeは66.8倍のルーリックパスレートを実現し,シングルパスとエージェントコーディングのベースラインをそれぞれ37.1ポイント,14.6ポイント向上した。
さらなる分析によると、GUIプレイスターフィードバックは人間のレポートよりもトレース可能であるが、人間のテスタを想起させる方法では慣用的であり、インタラクティブなコード生成のための重要なテストベッドとしてゲームプレイテストを確立している。
プロジェクトのWebサイトはhttps://continual-game-generation.vercel.app/.comで公開されている。
関連論文リスト
- PlayCoder: Making LLM-Generated GUI Code Playable [30.115742334937977]
既存のベンチマークは主にテストケースを通じて正確さを評価するが、GUIアプリケーションには不十分である。
このベンチマークは、Python、TypeScript、JavaScriptの43の多言語GUIアプリケーションから構築された。
また、論理的エラーなしに、少なくとも1つの*k*生成候補をエンドツーエンドでプレイできるかどうかを測定する指標であるPlay@kを提案する。
論文 参考訳(メタデータ) (2026-04-21T17:59:16Z) - GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents [76.60994803070436]
GameWorldは、ブラウザ環境におけるマルチモーダル大言語モデル(MLLM)ゲームエージェントの評価のためのベンチマークである。
2つのゲームエージェントインタフェースが研究され、 (i) キーボードとマウスのコントロールを直接出力するコンピュータ利用エージェント、 (ii) セマンティックアクション空間で作用する汎用マルチモーダルエージェントが研究されている。
18組のモデルとインタフェースのペアによる結果は、最高のパフォーマンスエージェントでさえ、ビデオゲームで人間の能力を達成するには程遠いことを示唆している。
論文 参考訳(メタデータ) (2026-04-08T17:49:03Z) - GameDevBench: Evaluating Agentic Capabilities Through Game Development [49.19956546746812]
ゲーム開発は、エージェントが本質的にマルチモーダル資産を操作しながら大きな密集物をナビゲートしなければならないようなテストベッドを提供する。
本稿では,ゲーム開発タスクにおけるエージェント評価のための最初のベンチマークであるGameDevBenchを紹介する。
エージェントは依然としてゲーム開発に苦戦しており、最高のエージェントは54.5%のタスクしか解決していない。
論文 参考訳(メタデータ) (2026-02-11T18:15:11Z) - FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback [92.67587639164908]
マルチモーダルフィードバックを備えたフロントエンドコード生成のベンチマークであるFronTalkを紹介する。
我々は、フロントエンド開発タスクに集中し、100のマルチターン対話のコレクションであるFronTalkをキュレートする。
20モデルの評価は、文献で体系的に調査されていない2つの重要な課題を明らかにしている。
論文 参考訳(メタデータ) (2025-12-05T23:28:09Z) - FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games [56.81554611870848]
我々はFlashAdventureを紹介した。これは、フルストーリーのアーク補完をテストするために設計された、34のFlashベースのアドベンチャーゲームのベンチマークである。
また,ゲームプレイの自動評価装置であるCUA-as-a-Judgeと,長期記憶を利用したエージェントフレームワークであるCOASTを提案する。
実験では、現在のGUIエージェントがフルストーリーのアークに苦しむのに対して、COASTは観察と振る舞いのギャップを埋めることでマイルストーンの完了を改善する。
論文 参考訳(メタデータ) (2025-09-01T01:33:16Z) - Pixels to Play: A Foundation Model for 3D Gameplay [4.380638021267298]
そこで,Pixels2Play-0.1(P2P0.1)を紹介した。
論文 参考訳(メタデータ) (2025-08-19T22:24:50Z) - Playable Game Generation [22.17100581717806]
本稿では,ゲームデータ生成,自動回帰型DiT拡散モデル,プレイヤビリティに基づく評価フレームワークなどを含むemphPlayGenを提案する。
PlayGenはリアルタイムインタラクションを実現し、十分な視覚的品質を確保し、正確なインタラクティブなメカニクスシミュレーションを提供する。
論文 参考訳(メタデータ) (2024-12-01T16:53:02Z) - PlayTest: A Gamified Test Generator for Games [11.077232808482128]
Playtestは、タイリングテストプロセスを目的のある競争ゲームに変換する。
プレイテストフェーズでは,プレイテストの段階において,プレイヤーがツールを介して各ゲームにアクセスできるようにすることで,ゲームテストのタスクをクラウドソーシングするために,Playtestを使用することを想定する。
論文 参考訳(メタデータ) (2023-10-30T10:14:27Z) - Inspector: Pixel-Based Automated Game Testing via Exploration,
Detection, and Investigation [116.41186277555386]
Inspectorは、ゲームと深く統合することなく、異なるゲームに容易に適用できるゲームテストエージェントである。
インスペクタは純粋にピクセル入力に基づいており、ゲームスペースエクスプローラー、キーオブジェクト検出器、人間に似たオブジェクトインスペクタの3つの重要なモジュールから構成されている。
実験結果は,ゲーム空間の探索,キーオブジェクトの検出,オブジェクトの調査におけるインスペクタの有効性を示す。
論文 参考訳(メタデータ) (2022-07-18T04:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。