論文の概要: GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents
- arxiv url: http://arxiv.org/abs/2511.04307v1
- Date: Thu, 06 Nov 2025 12:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.41344
- Title: GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents
- Title(参考訳): GUI-360:コンピュータ利用エージェントの総合的データセットとベンチマーク
- Authors: Jian Mu, Chaoyun Zhang, Chiming Ni, Lu Wang, Bo Qiao, Kartik Mathur, Qianhui Wu, Yuhang Xie, Xiaojun Ma, Mengyu Zhou, Si Qin, Liqun Li, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang,
- Abstract要約: GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
- 参考スコア(独自算出の注目度): 59.107657859025586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GUI-360$^\circ$, a large-scale, comprehensive dataset and benchmark suite designed to advance computer-using agents (CUAs). CUAs present unique challenges and is constrained by three persistent gaps: a scarcity of real-world CUA tasks, the lack of automated collection-and-annotation pipelines for multi-modal trajectories, and the absence of a unified benchmark that jointly evaluates GUI grounding, screen parsing, and action prediction. GUI-360$^\circ$ addresses these gaps with an LLM-augmented, largely automated pipeline for query sourcing, environment-template construction, task instantiation, batched execution, and LLM-driven quality filtering. The released corpus contains over 1.2M executed action steps across thousands of trajectories in popular Windows office applications, and includes full-resolution screenshots, accessibility metadata when available, instantiated goals, intermediate reasoning traces, and both successful and failed action trajectories. The dataset supports three canonical tasks, GUI grounding, screen parsing, and action prediction, and a hybrid GUI+API action space that reflects modern agent designs. Benchmarking state-of-the-art vision--language models on GUI-360$^\circ$ reveals substantial out-of-the-box shortcomings in grounding and action prediction; supervised fine-tuning and reinforcement learning yield significant gains but do not close the gap to human-level reliability. We release GUI-360$^\circ$ and accompanying code to facilitate reproducible research and accelerate progress on robust desktop CUAs. The full dataset has been made public on https://huggingface.co/datasets/vyokky/GUI-360.
- Abstract(参考訳): GUI-360$^\circ$は大規模で総合的なデータセットとベンチマークスイートで、コンピュータ利用エージェント(CUA)の進歩を図っている。
CUAは、現実世界のCUAタスクの不足、マルチモーダルな軌道に対する自動コレクション・アンド・アノテーションパイプラインの欠如、GUIグラウンディング、スクリーン解析、アクション予測を共同で評価する統一ベンチマークの欠如、という3つの永続的なギャップによって制約されている。
GUI-360$^\circ$は、クエリソーシング、環境テンプレート構築、タスクインスタンス化、バッチ実行、LLM駆動品質フィルタリングのためのLLM拡張された、大部分が自動化されたパイプラインでこれらのギャップに対処する。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションで数千のトラジェクトリにまたがる1.2万以上のアクションステップが含まれており、完全なスクリーンショット、利用可能なアクセシビリティメタデータ、インスタンス化されたゴール、中間的推論トレース、成功と失敗の両方のアクショントラジェクトリが含まれている。
このデータセットは、3つの標準的なタスク、GUIグラウンド、スクリーン解析、アクション予測、モダンなエージェント設計を反映したGUI+APIアクションスペースをサポートする。
GUI-360$^\circ$上での最先端のビジョン言語モデルのベンチマークでは、グラウンドとアクション予測においてかなりの欠点が示され、教師付き微調整と強化学習が大幅に向上するが、人間レベルの信頼性とのギャップを埋めることはできない。
GUI-360$^\circ$とそれに伴うコードをリリースし、再現可能な研究を容易にし、堅牢なデスクトップCUAの進歩を加速する。
完全なデータセットはhttps://huggingface.co/datasets/vyokky/GUI-360で公開されている。
関連論文リスト
- GUIrilla: A Scalable Framework for Automated Desktop UI Exploration [0.0]
GUIrillaは、GUI自動化における重要なデータ収集問題に対処するために、ネイティブアクセシビリティAPIを介してアプリケーションを探索する自動化フレームワークである。
我々は1,108個のアプリケーションにまたがって,27,171個の機能的なタスクからなる大規模データセットGUIrilla-Taskを構築し,リリースする。
GUIrilla-TaskにLLMベースのエージェントをチューニングすることで、下流UIタスクのパフォーマンスが大幅に向上し、ScreenSpot Proベンチマークでの合成ベースラインよりも97%少ないデータを使用した。
論文 参考訳(メタデータ) (2025-10-16T19:03:45Z) - UIPro: Unleashing Superior Interaction Capability For GUI Agents [33.77980648230746]
人間のようなグラフィカルユーザインタフェース(GUI)を知覚し、操作する自律エージェントの構築は、人工知能の分野における長年のビジョンである。
視覚言語モデル(VLM)のマルチモーダル理解能力に基づくGUIエージェントの開発が試みられている。
本稿では,多プラットフォーム・マルチタスクGUIインタラクションデータを用いた新しい汎用GUIエージェントであるtextUIProを提案する。
論文 参考訳(メタデータ) (2025-09-22T03:04:53Z) - GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning [11.909652592163896]
GUI-ReWalkは、現実的で多様なGUIトラジェクトリを合成するための多段階フレームワークである。
GUI-ReWalkは、ランダム性と構造に対するゴール認識推論を組み合わせることで、人間のコンピュータインタラクションの意図認識、適応性をよりよく反映したデータを生成する。
その結果、GUI-ReWalkは、多様な相互作用フロー、より高い軌道エントロピー、よりリアルなユーザインテントのカバレッジを向上できることを示した。
論文 参考訳(メタデータ) (2025-09-19T08:09:18Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - GUI-Robust: A Comprehensive Dataset for Testing GUI Agent Robustness in Real-World Anomalies [34.63675989928621]
本稿ではGUIエージェント評価のための新しいデータセットであるGUI-Robustを紹介する。
また、RPAツールを介して自然なインタラクションからユーザアクションシーケンスを収集する半自動データセット構築パラダイムを提案する。
このパラダイムは、アノテーションの時間コストを19倍以上削減します。
GUI-Robustデータセットを用いて最先端のGUIエージェントを評価し,異常なシナリオにおける性能劣化を明らかにした。
論文 参考訳(メタデータ) (2025-06-17T12:50:35Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。