論文の概要: Computer-Use Agents as Judges for Generative User Interface
- arxiv url: http://arxiv.org/abs/2511.15567v1
- Date: Wed, 19 Nov 2025 16:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.885577
- Title: Computer-Use Agents as Judges for Generative User Interface
- Title(参考訳): 生成ユーザインタフェースの判断者としてのコンピュータ利用エージェント
- Authors: Kevin Qinghong Lin, Siyuan Hu, Linjie Li, Zhengyuan Yang, Lijuan Wang, Philip Torr, Mike Zheng Shou,
- Abstract要約: ComputerUse Agents (CUA) は、グラフィカルユーザインタフェース (GUI) を通じてデジタル環境を自律的に操作する能力が高まっている。
ほとんどのGUIは、人間が効率的にタスクを実行するのに不要な人間指向の動作を採用するために設計されている。
CUA は Coder でGUI の自動設計を支援することができるだろうか?
- 参考スコア(独自算出の注目度): 142.75272102498806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-Use Agents (CUA) are becoming increasingly capable of autonomously operating digital environments through Graphical User Interfaces (GUI). Yet, most GUI remain designed primarily for humans--prioritizing aesthetics and usability--forcing agents to adopt human-oriented behaviors that are unnecessary for efficient task execution. At the same time, rapid advances in coding-oriented language models (Coder) have transformed automatic GUI design. This raises a fundamental question: Can CUA as judges to assist Coder for automatic GUI design? To investigate, we introduce AUI-Gym, a benchmark for Automatic GUI development spanning 52 applications across diverse domains. Using language models, we synthesize 1560 tasks that simulate real-world scenarios. To ensure task reliability, we further develop a verifier that programmatically checks whether each task is executable within its environment. Building on this, we propose a Coder-CUA in Collaboration framework: the Coder acts as Designer, generating and revising websites, while the CUA serves as Judge, evaluating functionality and refining designs. Success is measured not by visual appearance, but by task solvability and CUA navigation success rate. To turn CUA feedback into usable guidance, we design a CUA Dashboard that compresses multi-step navigation histories into concise visual summaries, offering interpretable guidance for iterative redesign. By positioning agents as both designers and judges, our framework shifts interface design toward agent-native efficiency and reliability. Our work takes a step toward shifting agents from passive use toward active participation in digital environments. Our code and dataset are available at https://github.com/showlab/AUI.
- Abstract(参考訳): コンピュータ・ユース・エージェント(CUA)はグラフィカル・ユーザ・インタフェース(GUI)を通じてデジタル環境を自律的に操作する能力が高まっている。
しかし、ほとんどのGUIは、主に人間の美学とユーザビリティを優先的に設計し、効率的なタスク実行のために不要な人間指向の振る舞いを採用するように強制する。
同時に、コーディング指向言語モデル(Coder)の急速な進歩により、GUIの自動設計が変化した。
CUA は Coder でGUI の自動設計を支援することができるだろうか?
そこで本研究では,52のアプリケーションにまたがる自動GUI開発のためのベンチマークであるAUI-Gymを紹介する。
言語モデルを用いて実世界のシナリオをシミュレートする1560のタスクを合成する。
タスクの信頼性を確保するため,各タスクが環境内で実行可能であるかどうかをプログラムで確認する検証器をさらに開発する。
そこで我々は,Coder-CUA in Collaborationフレームワークを提案する。Coderはデザイナとして,Webサイトを生成,改訂し,CUAは審査,機能評価,設計の精査を行う。
成功は視覚的な外観ではなく、タスクの解決可能性とCUAナビゲーションの成功率によって測定される。
CUAフィードバックを使用可能なガイダンスに変換するために,複数ステップのナビゲーション履歴を簡潔な視覚要約に圧縮し,反復的再設計のための解釈可能なガイダンスを提供するCUAダッシュボードを設計する。
エージェントをデザイナとジャッジの両方に配置することで、当社のフレームワークはインターフェース設計をエージェントネイティブの効率性と信頼性にシフトします。
我々の研究は、エージェントを受動的使用からデジタル環境への積極的な参加へとシフトさせるための一歩を踏み出した。
私たちのコードとデータセットはhttps://github.com/showlab/AUI.orgで公開されています。
関連論文リスト
- UIPro: Unleashing Superior Interaction Capability For GUI Agents [33.77980648230746]
人間のようなグラフィカルユーザインタフェース(GUI)を知覚し、操作する自律エージェントの構築は、人工知能の分野における長年のビジョンである。
視覚言語モデル(VLM)のマルチモーダル理解能力に基づくGUIエージェントの開発が試みられている。
本稿では,多プラットフォーム・マルチタスクGUIインタラクションデータを用いた新しい汎用GUIエージェントであるtextUIProを提案する。
論文 参考訳(メタデータ) (2025-09-22T03:04:53Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。