Fugu-MT 論文翻訳(概要): Toward Autonomous UI Exploration: The UIExplorer Benchmark

論文の概要: Toward Autonomous UI Exploration: The UIExplorer Benchmark

arxiv url: http://arxiv.org/abs/2506.17779v1
Date: Sat, 21 Jun 2025 18:16:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.58008
Title: Toward Autonomous UI Exploration: The UIExplorer Benchmark
Title（参考訳）: 自律的なUI探索に向けて - UIExplorerベンチマーク
Authors: Andrei Cristian Nica, Akshaya Vishnu Kudlu Shanbhogue, Harshil Shah, Aleix Cambray, Tudor Berariu, Lucas Maystre, David Barber,
Abstract要約: UIエクスプローラーベンチ(UIExplore-Bench)は、UI探索に特化した最初のベンチマークである。ベンチマークでは、標準化されたGitLabサンドボックス環境において、構造化モード(DOMツリーのようなレイアウト情報へのアクセスをグラニングする)またはスクリーンモード(スクリーンショットやヒューマンライクなマウス/キーボードのインタラクションのようなGUIのみの観察に基づいて)のエージェントを3つのレベルにわたって評価している。以上の結果から,UIExplore-AlGoは平均hUFOスコアを最大77.2%,スクリーンモードは最大59.0%,Sparseレベルは特に優れていた。
参考スコア（独自算出の注目度）: 10.669221849705165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous agents must know how to explore user interfaces (UIs) for reliable task solving, yet systematic evaluation of this crucial phase is lacking. We introduce UIExplore-Bench, the first benchmark explicitly dedicated to UI exploration. The benchmark evaluates agents with either Structured mode (granting access to layout information like DOM trees) or Screen mode (relying on GUI-only observations such as screenshots and human-like mouse/keyboard interactions) across three levels in a standardized GitLab sandbox environment. We formalize exploration as the process of maximizing the set of actionable UI components discovered and propose a metric, human-normalized UI-Functionalities Observed (hUFO), to quantify the effectiveness of exploration. Our results show that UIExplore-AlGo achieves the leading mean hUFO scores, reaching up to 77.2% of human performance in Structured mode and 59.0% in Screen mode at 2,000 steps, particularly excelling at the Sparse level. The results highlight the relevance of our benchmark, as current agents show a substantial performance gap compared to one hour of human expert exploration, indicating ample room for future advancements. We publicly release the benchmark environment, an exploration dataset, and an evaluation suite to catalyze research into efficient UI exploration strategies and their downstream applications, such as experience-driven task completion and automated training data generation.
Abstract（参考訳）: 自律エージェントは、信頼性の高いタスク解決のためにユーザインターフェース(UI)を探索する方法を知っていなければならないが、この重要なフェーズの体系的な評価は欠如している。 UIエクスプローラーベンチ(UIExplore-Bench)は、UI探索に特化した最初のベンチマークである。ベンチマークでは、標準化されたGitLabサンドボックス環境において、構造化モード(DOMツリーのようなレイアウト情報へのアクセスをグラニングする)またはスクリーンモード(スクリーンショットやヒューマンライクなマウス/キーボードのインタラクションのようなGUIのみの観察に基づいて)のエージェントを3つのレベルにわたって評価している。そこで我々は,発見される動作可能なUIコンポーネントの集合を最大化するプロセスとして探索を形式化し,探索の有効性を定量化するために,ヒト正規化UIファウンチャリティー観測(hUFO)を提案する。以上の結果から,UIExplore-AlGoは平均hUFOスコアを最大77.2%,スクリーンモードは最大59.0%,Sparseレベルは特に優れていた。この結果は、現在のエージェントが1時間にわたる人間の専門家による探索と比較してかなりパフォーマンスの差を示しており、将来の進歩には十分な余地があることから、我々のベンチマークの関連性を強調している。ベンチマーク環境、探索データセット、評価スイートを公開し、UI探索戦略とその下流アプリケーション(経験駆動タスク補完や自動トレーニングデータ生成など)の研究を触媒する。

関連論文リスト

UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.871793585090586]
GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。 UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-27T17:58:06Z)
GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.34801160469067]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-05-22T16:01:06Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
Beyond Pass or Fail: Multi-Dimensional Benchmarking of Foundation Models for Goal-based Mobile UI Navigation [15.80796682874844]
ユーザインタフェース(UI)ナビゲーションの産業的設定における基礎モデル(FM)の評価のためのベンチマークであるSphinxを提案する。 Google PlayアプリケーションとWeChatの内部UIテストケースの両方を使用して、20の異なる構成を持つ8つのFMを評価した。その結果、既存のFMは、主にUI固有の機能不足のため、ゴールベースのテストタスクに普遍的に苦労していることがわかった。
論文参考訳（メタデータ） (2025-01-06T09:10:11Z)
GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文参考訳（メタデータ） (2024-12-24T13:41:47Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
Identifying User Goals from UI Trajectories [19.492331502146886]
観測されたUI軌道からタスク目標を識別する手法を提案する。また,2つの意図記述をパラフレーズとみなすことができるかどうかを評価するための新しい評価手法を提案する。このタスクをベンチマークするために、人間と最先端モデル、特にGPT-4とGemini-1.5 Proのパフォーマンスを比較した。
論文参考訳（メタデータ） (2024-06-20T13:46:10Z)
Self-Supervised Representation Learning from Temporal Ordering of Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。 BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文参考訳（メタデータ） (2023-02-17T18:18:27Z)
ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文参考訳（メタデータ） (2022-06-14T17:09:35Z)
First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文参考訳（メタデータ） (2022-05-24T21:57:18Z)
Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。 GREWは、野生における歩行認識のための最初の大規模データセットである。 SPOSGaitはNASベースの最初の歩行認識モデルである。
論文参考訳（メタデータ） (2022-05-05T14:57:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。