論文の概要: AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark
- arxiv url: http://arxiv.org/abs/2604.24441v1
- Date: Mon, 27 Apr 2026 13:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.013175
- Title: AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark
- Title(参考訳): AutoGUI-v2: ベンチマークを理解する総合的なマルチモーダルGUI機能
- Authors: Hongxin Li, Xiping Wang, Jingran Su, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang,
- Abstract要約: AutoGUI-v2は、深いGUI機能の理解と相互作用結果の予測を評価するために設計されたベンチマークである。
我々は、スクリーンショットを階層的な機能領域に解析する新しいVLM-ヒューマン協調パイプラインを用いて、ベンチマークを構築した。
AutoGUI-v2は、リージョンと要素レベルのセマンティクス、グラウンド、動的状態予測のエージェントを厳格にテストする。
- 参考スコア(独自算出の注目度): 32.66632642377623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents capable of navigating Graphical User Interfaces (GUIs) hold the potential to revolutionize digital productivity. However, achieving true digital autonomy extends beyond reactive element matching; it necessitates a predictive mental model of interface dynamics and the ability to foresee the "digital world state" resulting from interactions. Despite the perceptual capabilities of modern Vision-Language Models (VLMs), existing benchmarks remain bifurcated (focusing either on black-box task completion or static, shallow grounding), thereby failing to assess whether agents truly comprehend the implicit functionality and transition logic of GUIs. To bridge this gap, we introduce AutoGUI-v2, a comprehensive benchmark designed to evaluate deep GUI functionality understanding and interaction outcome prediction. We construct the benchmark using a novel VLM-human collaborative pipeline that recursively parses multi-platform screenshots into hierarchical functional regions to generate diverse evaluation tasks. Providing 2,753 tasks across six operating systems, AutoGUI-v2 rigorously tests agents on region and element-level semantics, grounding, and dynamic state prediction. Our evaluation reveals a striking dichotomy in VLMs: while open-source models fine-tuned on agent data (e.g., Qwen3-VL) excel at functional grounding, commercial models (e.g., Gemini-2.5-Pro-Thinking) dominate in functionality captioning. Crucially, all models struggle with complex interaction logic of uncommon actions, highlighting that deep functional understanding remains a significant hurdle. By systematically measuring these foundational capabilities, AutoGUI-v2 offers a new lens for advancing the next generation of GUI agents.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)をナビゲートできる自律エージェントは、デジタル生産性に革命をもたらす可能性を秘めている。
しかし、真のデジタル自律性を達成するには、反応的要素マッチングを超えて、インターフェースダイナミクスの予測的メンタルモデルと、相互作用によって生じる「デジタル世界状態」を予測する能力が必要である。
現代のビジョン・ランゲージ・モデル(VLM)の知覚能力にもかかわらず、既存のベンチマークは(ブラックボックスのタスク補完か、静的で浅いグラウンドに焦点をあてる)分岐し、エージェントがGUIの暗黙的な機能とトランジションロジックを真に理解しているかどうかを判断することができない。
このギャップを埋めるために、我々は、深いGUI機能の理解と相互作用結果の予測を評価するために設計された包括的なベンチマークであるAutoGUI-v2を紹介する。
マルチプラットフォームスクリーンショットを階層的な機能領域に再帰的に解析し,多様な評価タスクを生成する新しいVLM協調パイプラインを用いてベンチマークを構築した。
6つのオペレーティングシステムで2,753のタスクを提供するAutoGUI-v2は、リージョンと要素レベルのセマンティクス、グラウンド、動的状態予測のエージェントを厳格にテストする。
エージェントデータ(例えばQwen3-VL)を微調整したオープンソースモデルは機能的接地において優れているが,商用モデル(例:Gemini-2.5-Pro-Thinking)は機能キャプションにおいて優位である。
重要なことは、すべてのモデルが、珍しいアクションの複雑な相互作用ロジックに苦しむことであり、深い機能的理解が依然として重大なハードルであることを強調している。
これらの基礎機能を体系的に測定することで、AutoGUI-v2は次世代のGUIエージェントを進化させるための新しいレンズを提供する。
関連論文リスト
- UIPro: Unleashing Superior Interaction Capability For GUI Agents [33.77980648230746]
人間のようなグラフィカルユーザインタフェース(GUI)を知覚し、操作する自律エージェントの構築は、人工知能の分野における長年のビジョンである。
視覚言語モデル(VLM)のマルチモーダル理解能力に基づくGUIエージェントの開発が試みられている。
本稿では,多プラットフォーム・マルチタスクGUIインタラクションデータを用いた新しい汎用GUIエージェントであるtextUIProを提案する。
論文 参考訳(メタデータ) (2025-09-22T03:04:53Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - ZeroGUI: Automating Online GUI Learning at Zero Human Cost [75.21128388931945]
我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
論文 参考訳(メタデータ) (2025-05-29T17:59:51Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection [38.833925781308665]
MLLMベースのGUIエージェントである textitInfiGUIAgent を2段階の教師付き微調整パイプラインでトレーニングした。
ステージ1はGUIの理解や接地といった基本的なスキルを強化し、ステージ2は階層的推論と予測反射推論のスキルを統合する。
textitInfiGUIAgentは、いくつかのGUIベンチマークで競合するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-08T15:45:21Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。