論文の概要: PlayCoder: Making LLM-Generated GUI Code Playable
- arxiv url: http://arxiv.org/abs/2604.19742v1
- Date: Tue, 21 Apr 2026 17:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.92061
- Title: PlayCoder: Making LLM-Generated GUI Code Playable
- Title(参考訳): PlayCoder: LLM生成GUIコードを再生可能に
- Authors: Zhiyuan Peng, Wei Tao, Xin Yin, Chenhao Ying, Yuan Luo, Yiwen Guo,
- Abstract要約: 既存のベンチマークは主にテストケースを通じて正確さを評価するが、GUIアプリケーションには不十分である。
このベンチマークは、Python、TypeScript、JavaScriptの43の多言語GUIアプリケーションから構築された。
また、論理的エラーなしに、少なくとも1つの*k*生成候補をエンドツーエンドでプレイできるかどうかを測定する指標であるPlay@kを提案する。
- 参考スコア(独自算出の注目度): 30.115742334937977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved strong results in code generation, but their ability to generate GUI applications, especially games, remains insufficiently studied. Existing benchmarks mainly evaluate correctness through test cases, which are inadequate for GUI applications because these systems are interactive, event-driven, and require correct state transitions across sequences of user actions. Their evaluation therefore should consider interaction flows and UI logic rather than only pass/fail outcomes. To study this problem, we introduce PlayEval, a repository-aware benchmark built from 43 multilingual GUI applications in Python, TypeScript, and JavaScript. Unlike prior GUI benchmarks that are difficult to adapt to desktop environments, PlayEval covers six major GUI application categories and directly supports code-generation evaluation. We further propose Play@k, a metric that measures whether at least one of *k* generated candidates can be played end-to-end without logical errors. To support reliable evaluation, we develop PlayTester, an LLM-based agent that performs task-oriented GUI playthroughs and detects logic violations automatically. Experiments on 10 state-of-the-art code LLMs show that, despite high compilation rates, they achieve near-zero Play@3, revealing major weaknesses in generating logically correct GUI applications. To address this limitation, we present PlayCoder, a multi-agent, repository-aware framework that generates, evaluates, and iteratively repairs GUI application code in a closed loop. PlayCoder substantially improves both functional correctness and semantic alignment for open-source and closed-source models, reaching up to 38.1% Exec@3 and 20.3% Play@3. Case studies further show that it can uncover silent logic bugs missed by traditional metrics and fix them through targeted edits.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成において大きな成果を上げているが、GUIアプリケーションを生成する能力、特にゲームは十分に研究されていない。
既存のベンチマークは主にテストケースを通じて正確さを評価するが、GUIアプリケーションには不適切である。
したがって、それらの評価は、パス/フェール結果のみでなく、インタラクションフローとUIロジックを考慮すべきである。
この問題を解決するために,Python,TypeScript,JavaScriptの43の多言語GUIアプリケーションから構築されたリポジトリ対応ベンチマークであるPlayEvalを紹介した。
デスクトップ環境への適応が難しい以前のGUIベンチマークとは異なり、PlayEvalは6つの主要なGUIアプリケーションカテゴリをカバーし、コード生成評価を直接サポートする。
さらに、論理的エラーなしに、少なくとも1つの*k*生成候補をエンドツーエンドでプレイできるかどうかを測定する指標であるPlay@kを提案する。
信頼性評価を支援するために,タスク指向GUIプレイスルーを実行し,ロジック違反を自動的に検出するLLMベースのエージェントであるPlayTesterを開発した。
最先端の10のLLMの実験では、高いコンパイル率にもかかわらず、ほぼゼロに近いPlay@3が達成され、論理的に正しいGUIアプリケーションを生成する際の大きな弱点が明らかになった。
この制限に対処するため、我々は、閉ループ内でGUIアプリケーションコードを生成し、評価し、反復的に修復するマルチエージェントのリポジトリ対応フレームワークであるPlayCoderを紹介した。
PlayCoderは、オープンソースのモデルとクローズドソースモデルの機能的正当性とセマンティックアライメントの両方を大幅に改善し、最大38.1%のExec@3と20.3%のPlay@3に達する。
ケーススタディでは、従来のメトリクスが見逃したサイレントロジックのバグを発見でき、ターゲットの編集によって修正できることを示している。
関連論文リスト
- See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch [20.231957791642635]
本稿では,Scratchにおけるプログラム・バイ・コンストラクションタスクにおけるマルチモーダルGUIエージェントの評価ベンチマークであるScratchWorldを紹介する。
ScratchWorldは、Create、Debug、Extended、Computeの4つの異なる問題カテゴリにまたがる83のキュレートされたタスクで構成されている。
信頼性の高い評価を実現するため,構築したScratchプログラムの機能的正当性を検証した実行ベース評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-11T12:54:53Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - LLM-Guided Scenario-based GUI Testing [22.70111721644705]
本稿では,GUIのセマンティクスと文脈的関連性を理解するために,大規模言語モデルを活用するアプローチを提案する。
手動テストフェーズをシミュレートし,自動化するためにマルチエージェント協調を用いたシナリオベースGUIテストフレームワークであるScenGenを提案する。
論文 参考訳(メタデータ) (2025-06-05T14:27:40Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point [17.165899818213475]
We introduced WorldGUI, a comprehensive GUI benchmark including tasks across 10 wide used desktop and web applications。
WorldGUI-Agentは3つのコアモジュールを統一する普遍的なフレームワークである。高レベルプラン修正のためのPlanner-Critic、中間検証のためのStep-Check、アクションレベルの最適化のためのActor-Criticである。
論文 参考訳(メタデータ) (2025-02-12T01:06:10Z) - GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。
テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。
実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-24T13:41:47Z) - Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps [26.96558418166514]
本稿では,非クラッシュな機能的バグを検出するための,視覚駆動型多エージェント協調GUIテスト手法を提案する。
590の非クラッシュバグに対してTridentを評価し,12のベースラインと比較したところ,平均リコールと精度が14%-112%,108%-147%向上した。
論文 参考訳(メタデータ) (2024-07-03T11:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。