論文の概要: See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch
- arxiv url: http://arxiv.org/abs/2602.10814v1
- Date: Wed, 11 Feb 2026 12:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.903866
- Title: See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch
- Title(参考訳): マルチモーダルGUIエージェントをスクラッチで評価するScratch, Plan, Snap
- Authors: Xingyi Zhang, Yulei Ye, Kaifeng Huang, Wenhao Li, Xiangfeng Wang,
- Abstract要約: 本稿では,Scratchにおけるプログラム・バイ・コンストラクションタスクにおけるマルチモーダルGUIエージェントの評価ベンチマークであるScratchWorldを紹介する。
ScratchWorldは、Create、Debug、Extended、Computeの4つの異なる問題カテゴリにまたがる83のキュレートされたタスクで構成されている。
信頼性の高い評価を実現するため,構築したScratchプログラムの機能的正当性を検証した実行ベース評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 20.231957791642635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Block-based programming environments such as Scratch play a central role in low-code education, yet evaluating the capabilities of AI agents to construct programs through Graphical User Interfaces (GUIs) remains underexplored. We introduce ScratchWorld, a benchmark for evaluating multimodal GUI agents on program-by-construction tasks in Scratch. Grounded in the Use-Modify-Create pedagogical framework, ScratchWorld comprises 83 curated tasks spanning four distinct problem categories: Create, Debug, Extend, and Compute. To rigorously diagnose the source of agent failures, the benchmark employs two complementary interaction modes: primitive mode requires fine-grained drag-and-drop manipulation to directly assess visuomotor control, while composite mode uses high-level semantic APIs to disentangle program reasoning from GUI execution. To ensure reliable assessment, we propose an execution-based evaluation protocol that validates the functional correctness of the constructed Scratch programs through runtime tests within the browser environment. Extensive experiments across state-of-the-art multimodal language models and GUI agents reveal a substantial reasoning--acting gap, highlighting persistent challenges in fine-grained GUI manipulation despite strong planning capabilities.
- Abstract(参考訳): Scratchのようなブロックベースのプログラミング環境は、ローコード教育において中心的な役割を果たすが、GUI(Graphical User Interfaces)を通じてプログラムを構築するAIエージェントの能力の評価は未定である。
本稿では,Scratchにおけるプログラム・バイ・コンストラクションタスクにおけるマルチモーダルGUIエージェントの評価ベンチマークであるScratchWorldを紹介する。
Use-Modify-Create pedagogicalフレームワークを基盤として、ScratchWorldは4つの異なる問題カテゴリ(Create、Debug、Extended、Compute)にまたがる83のキュレートされたタスクで構成されている。
プリミティブモードでは、ビジュモータ制御を直接評価するために、微粒なドラッグ・アンド・ドロップ操作が必要であり、コンポジットモードでは、GUI実行からプログラム推論をアンタングルするために、ハイレベルなセマンティックAPIを使用する。
本研究では,ブラウザ環境における実行時テストを通じて構築したScratchプログラムの機能的正当性を検証した実行ベース評価プロトコルを提案する。
最先端のマルチモーダル言語モデルとGUIエージェントにわたる大規模な実験は、強力な計画機能にもかかわらず、きめ細かなGUI操作における永続的な課題を浮き彫りにしている。
関連論文リスト
- D-GARA: A Dynamic Benchmarking Framework for GUI Agent Robustness in Real-World Anomalies [39.738017374978796]
実世界の異常におけるAndroid GUIエージェントの堅牢性を評価するためのベンチマークフレームワークD-GARAを提案する。
D-GARAフレームワークをベースとして、一般的に使われているAndroidアプリケーションに組込み異常のあるベンチマークを構築し、注釈付けする。
総合的な実験と結果は、異常に富む環境に曝露した場合、最先端のGUIエージェントの性能低下を示す。
論文 参考訳(メタデータ) (2025-11-20T17:43:46Z) - ProBench: Benchmarking GUI Agents with Accurate Process Information [15.519853892615272]
ProBenchは、広く使われているシナリオをカバーする200以上のGUIタスクからなる包括的なベンチマークである。
データセットをプロセス関連タスクに拡張し、特殊な評価手法を設計する。
先進的なGUIエージェントを評価した結果,現実のGUIシナリオには大きな制限があることがわかった。
論文 参考訳(メタデータ) (2025-11-12T09:49:31Z) - MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文 参考訳(メタデータ) (2025-07-25T17:59:26Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - A Survey on (M)LLM-Based GUI Agents [62.57899977018417]
グラフィカルユーザインタフェース (GUI) エージェントは、人間とコンピュータのインタラクションにおいて、トランスフォーメーションパラダイムとして登場した。
大規模言語モデルとマルチモーダル学習の最近の進歩は、デスクトップ、モバイル、Webプラットフォーム全体でGUI自動化に革命をもたらした。
本調査では, 正確な要素位置決定, 効果的な知識検索, 長期計画, 安全に配慮した実行制御など, 重要な技術的課題を明らかにする。
論文 参考訳(メタデータ) (2025-03-27T17:58:31Z) - GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。
テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。
実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-24T13:41:47Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。