論文の概要: WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games
- arxiv url: http://arxiv.org/abs/2605.17637v2
- Date: Thu, 21 May 2026 20:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 20:36:39.387373
- Title: WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games
- Title(参考訳): WebGameBench: ブラウザネイティブゲームによるコーディングエージェントの必要なアプリケーション評価
- Authors: Wenyu Zhang, Guoliang You, Tianlun, Haotian Zhao, Tianshu Zhu, Haoran Wang, Xiaoxuan Tang, Mingyang Dai, Jingnan Gu, Daxiang Dong, Jianmin Wu,
- Abstract要約: WebGameBenchは,ブラウザネイティブゲームのための要件 to アプリケーションベンチマークである。
実行時評価器は実際のブラウザで配信されたゲームと対話し、EXCELLENT、USABLE、UNUSABLEという3方向ラベルを割り当てる。
111タスク、12のコーディングエージェント、14の評価設定で、WebGameBenchは現在のシステムを分離する。
- 参考スコア(独自算出の注目度): 8.739777755259286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coding agents are increasingly used as application builders, yet many evaluations still focus on source code, repository-level tests, or intermediate traces rather than the delivered application. We introduce WebGameBench, a requirement-to-application benchmark that evaluates whether coding agents can turn a frozen Structured WebGame Specification into a browser-accessible game. Browser-native games provide a compact but behavior-dense testbed: even simple games require coordinated input handling, spatial mapping, rule execution, state transitions, terminal conditions, restart behavior, and visible feedback. In WebGameBench, each generated artifact is built, served, and exposed as a browser-accessible application under a unified deployment protocol. A runtime evaluator then interacts with the delivered game in a real browser and assigns a three-way label: EXCELLENT, USABLE, or UNUSABLE. On a human-reviewed subset, the runtime label is broadly aligned with human gameplay review under the Usable-rate criterion. Across 111 tasks, 12 coding agents, and 14 evaluation configurations, WebGameBench separates current systems: the best configuration reaches a 76.9% usable rate but only a 20.2% excellent rate. This gap shows that crossing the minimum playable-delivery threshold is still far from complete requirement satisfaction. To our knowledge, WebGameBench is the first requirement-to-application benchmark for browser-native game delivery that validates delivered-application runtime labels against independent human gameplay review under the Usable-rate criterion.
- Abstract(参考訳): コーディングエージェントは、アプリケーションビルダーとしてますます使われていますが、多くの評価は、提供されたアプリケーションではなく、ソースコード、リポジトリレベルのテスト、中間トレースに焦点を当てています。
我々は、コーディングエージェントが凍結された構造化されたWebGame Specificationをブラウザでアクセス可能なゲームに変換することができるかどうかを評価する、要求からアプリケーションへのベンチマークであるWebGameBenchを紹介する。
単純なゲームであっても、コーディネートされた入力処理、空間マッピング、ルールの実行、状態遷移、端末条件、再起動動作、可視的フィードバックを必要とする。
WebGameBenchでは、各生成されたアーティファクトは、統一されたデプロイメントプロトコルの下で、ブラウザアクセス可能なアプリケーションとして構築され、提供され、公開されている。
実行時評価器は実際のブラウザで配信されたゲームと対話し、EXCELLENT、USABLE、UNUSABLEという3つのラベルを割り当てる。
ヒューマンレビューされたサブセットでは、ランタイムラベルは、Usable-rate criterionの下での人間のゲームプレイレビューと広く一致している。
111タスク、12のコーディングエージェント、14の評価設定を含むWebGameBenchは、現在のシステムを分離している。
このギャップは、最小のプレイ可能なデリバリしきい値を越えることが、依然として完全な要求満足度には程遠いことを示している。
私たちの知る限り、WebGameBenchは、ブラウザネイティブなゲーム配信のための最初の要件・ツー・アプリケーションベンチマークであり、Usable-rate criterionの下で、独立した人間のゲームプレイレビューに対して、配信・アプリケーションランタイムラベルを検証する。
関連論文リスト
- From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements [34.560333810255464]
テスト駆動開発(TDDev)は、このクローズドループを3段階を通じて自動化するフレームワークである。
我々は、Webアプリケーション生成のためのテスト駆動開発戦略について、初めて制御された実証的研究を行う。
TDDevは、手動による開発者の介入をゼロに減らし、ワークロードを継続的プロンプトエンジニアリングから、自律的なフィードバック駆動の洗練へとシフトさせる。
論文 参考訳(メタデータ) (2026-05-17T03:48:41Z) - ClawBench: Can AI Agents Complete Everyday Online Tasks? [50.958690494341106]
ClawBenchは153のシンプルなタスクの評価フレームワークで、人々が人生や仕事で定期的に達成する必要がある。
ClawBenchは本番Webサイトで動作し、実世界のWebインタラクションの完全な複雑さ、動的な性質、課題を保存する。
軽量なインターセプション層は、最終的なリクエストのみをキャプチャしてブロックし、現実世界の副作用なしに安全な評価を保証する。
論文 参考訳(メタデータ) (2026-04-09T17:57:13Z) - MolmoWeb: Open Visual Web Agent and Open Data for the Open Web [60.29597961827816]
MolmoWebMixはブラウザのタスクとWeb-GUIの知覚データを組み合わせたものだ。
MolmoWeb-8Bは、完全にオープンなマルチモーダルWebエージェントのファミリーである。
我々は、Webエージェントのオープンな研究を可能にするため、モデルチェックポイント、トレーニングデータ、コード、統一された評価ハーネスをリリースする。
論文 参考訳(メタデータ) (2026-04-09T17:54:02Z) - GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents [76.60994803070436]
GameWorldは、ブラウザ環境におけるマルチモーダル大言語モデル(MLLM)ゲームエージェントの評価のためのベンチマークである。
2つのゲームエージェントインタフェースが研究され、 (i) キーボードとマウスのコントロールを直接出力するコンピュータ利用エージェント、 (ii) セマンティックアクション空間で作用する汎用マルチモーダルエージェントが研究されている。
18組のモデルとインタフェースのペアによる結果は、最高のパフォーマンスエージェントでさえ、ビデオゲームで人間の能力を達成するには程遠いことを示唆している。
論文 参考訳(メタデータ) (2026-04-08T17:49:03Z) - WebTestBench: Evaluating Computer-Use Agents towards End-to-End Automated Web Testing [57.7131457251794]
エンドツーエンドの自動Webテストを評価するベンチマークであるWebTestBenchを紹介します。
テストプロセスを2つのカスケードサブタスク、チェックリストの生成と欠陥検出に分解し、WebTesterを提案する。
以上の結果から,現在のコンピュータ利用エージェント能力と産業レベルの展開要求との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2026-03-26T09:27:29Z) - From Prompt to Product: A Human-Centered Benchmark of Agentic App Generation Systems [1.2273967746497585]
自然言語プロンプトからフルスタックのWebアプリケーションを生成できるエージェントAIシステムは、ソフトウェア開発の大きな変化を示している。
既存のプロンプト・ツー・アプリ・ツールは、現実的な人間中心の評価基準の下でどのように比較されているかは不明だ。
本稿では,アクセシブ・ツー・アプリ・システム評価のための人間中心ベンチマークを導入し,広く利用されている3つのプラットフォームを大規模に比較検討する。
論文 参考訳(メタデータ) (2025-12-19T21:37:15Z) - Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games [7.901354499277293]
ChatGPT AtlasはWebページを分析し、ユーザの意図を処理し、ブラウザから直接カーソルとキーボード入力を実行することができる。
テストシナリオとしてブラウザベースのゲームを用いて,AtlasのWebインタラクション機能を早期に評価する。
以上の結果から,AtlasはSudokuのような論理的推論タスクで強く機能するが,正確なタイミングとモータ制御を必要とするリアルタイムゲームでは,かなり苦労していることがわかった。
論文 参考訳(メタデータ) (2025-10-30T09:35:51Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [61.38499597241457]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。
ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。
また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文 参考訳(メタデータ) (2025-04-11T19:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。