論文の概要: GUIDE: A Benchmark for Understanding and Assisting Users in Open-Ended GUI Tasks
- arxiv url: http://arxiv.org/abs/2603.25864v1
- Date: Thu, 26 Mar 2026 19:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.253773
- Title: GUIDE: A Benchmark for Understanding and Assisting Users in Open-Ended GUI Tasks
- Title(参考訳): GUIDE: オープンなGUIタスクにおけるユーザ理解と支援のためのベンチマーク
- Authors: Saelyne Yang, Jaesang Yu, Yi-Hao Peng, Kevin Qinghong Lin, Jae Won Cho, Yale Song, Juho Kim,
- Abstract要約: GUIDE(GUI User Intent Detection Evaluation)は,ユーザの振る舞いを知覚し,意図を推測し,オープンなGUIタスクを支援するAIモデルを評価するベンチマークである。
GUIDEは、120人の初心者ユーザーによるデモから67.5時間のスクリーン録画と10のソフトウェアで思考を調整したナレーションで構成されている。
8つの最先端マルチモーダルモデルに対する評価では、全てのモデルが苦労し、行動状態の正確さは44.6%と55.0%に過ぎなかった。
- 参考スコア(独自算出の注目度): 37.34172410038155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical User Interface (GUI) agents have the potential to assist users in interacting with complex software (e.g., PowerPoint, Photoshop). While prior research has primarily focused on automating user actions through clicks and keystrokes, this paradigm overlooks human intention, where users value the ability to explore, iterate, and refine their ideas while maintaining agency. To move beyond automation and toward collaboration, GUI agents must understand what users are doing and why. We introduce GUIDE (GUI User Intent Detection Evaluation), a benchmark that evaluates AI models on their ability to perceive user behavior, infer intent, and provide assistance in open-ended GUI tasks. GUIDE consists of 67.5 hours of screen recordings from 120 novice user demonstrations with think-aloud narrations, across 10 software. GUIDE defines three tasks - (i) Behavior State Detection, (ii) Intent Prediction, and (iii) Help Prediction that test a model's ability to recognize behavior state, reason about goals, and decide when and how to help. Evaluations across eight state-of-the-art multimodal models reveal that all models struggled, achieving only 44.6% and 55.0% accuracy on behavior state and help prediction. However, providing user context significantly improved the performance, raising help prediction by up to 50.2pp, highlighting the critical role of structured user understanding in effective assistance. Our dataset is available at https://guide-bench.github.io.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、複雑なソフトウェア(PowerPoint、Photoshopなど)と対話するユーザを支援する可能性がある。
従来の研究は主にクリックやキーストロークによるユーザーアクションの自動化に重点を置いてきたが、このパラダイムは、ユーザーが代理店を維持しながらアイデアを探索、反復、洗練する能力を評価する人間の意図を見落としている。
自動化を超えてコラボレーションに向かうためには、GUIエージェントはユーザが何をしているのか、なぜなのかを理解する必要があります。
GUIDE(GUI User Intent Detection Evaluation)は,ユーザの振る舞いを知覚し,意図を推測し,オープンなGUIタスクを支援するAIモデルを評価するベンチマークである。
GUIDEは、120人の初心者ユーザーによるデモから67.5時間のスクリーン録画と10のソフトウェアで思考を調整したナレーションで構成されている。
GUIDEは3つのタスクを定義します。
(i)動作状態検出
(二)侵入予測、及び
三 モデルが行動状態を認識し、目標を判断し、いつ、どのように助けるかを判断する能力をテストすることを助けること。
8つの最先端マルチモーダルモデルに対する評価では、全てのモデルが苦労し、行動状態の正確さは44.6%と55.0%に過ぎなかった。
しかし、ユーザコンテキストを提供することでパフォーマンスが大幅に向上し、ヘルプ予測が最大50.2pp向上し、効果的なアシストにおける構造化ユーザ理解の重要な役割を浮き彫りにした。
私たちのデータセットはhttps://guide-bench.github.io.comで公開されています。
関連論文リスト
- GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents [39.807839972627015]
GUIタスクにおける能動的視覚知覚のための強化学習フレームワークであるGUI-Eyesを提案する。
我々は、意思決定を粗い探索ときめ細かい接地に分解する進歩的認識戦略を導入する。
ScreenSpot-Proベンチマークでは、GUI-Eyes-3Bは3kラベルのサンプルのみを使用して44.8%のグラウンド精度を達成した。
論文 参考訳(メタデータ) (2026-01-14T14:27:28Z) - Computer-Use Agents as Judges for Generative User Interface [142.75272102498806]
ComputerUse Agents (CUA) は、グラフィカルユーザインタフェース (GUI) を通じてデジタル環境を自律的に操作する能力が高まっている。
ほとんどのGUIは、人間が効率的にタスクを実行するのに不要な人間指向の動作を採用するために設計されている。
CUA は Coder でGUI の自動設計を支援することができるだろうか?
論文 参考訳(メタデータ) (2025-11-19T16:00:02Z) - Screencast-Based Analysis of User-Perceived GUI Responsiveness [53.53923672866705]
Toolsはモバイルのスクリーンキャストから直接GUIの応答性を測定するテクニックである。
コンピュータービジョンを使ってユーザーインタラクションを検出し、フレームレベルの視覚変化を分析し、2つの重要なメトリクスを計算する。
ツールはインダストリアルテストパイプラインにデプロイされ、毎日数千のスクリーンキャストを分析している。
論文 参考訳(メタデータ) (2025-08-02T12:13:50Z) - ScreenLLM: Stateful Screen Schema for Efficient Action Understanding and Prediction [15.220300812671494]
先進的なUI理解とアクション予測に適したマルチモーダル大規模言語モデル(MLLM)のセットであるScreenLLMを紹介する。
我々の研究は、多様なソフトウェア環境におけるユーザインタラクションを強化するスケーラブルで堅牢でインテリジェントなGUIエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2025-03-26T20:41:24Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Identifying User Goals from UI Trajectories [19.492331502146886]
観測されたUI軌道からタスク目標を識別する手法を提案する。
また,2つの意図記述をパラフレーズとみなすことができるかどうかを評価するための新しい評価手法を提案する。
このタスクをベンチマークするために、人間と最先端モデル、特にGPT-4とGemini-1.5 Proのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-06-20T13:46:10Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - Assisted Perception: Optimizing Observations to Communicate State [112.40598205054994]
我々は、ロボット遠隔操作や視覚障害のあるナビゲーションといったタスクにおいて、ユーザが世界の状態を見積もるのを支援することを目的としている。
ユーザによって処理された場合、より正確な内部状態推定につながる新しい観測結果を合成する。
論文 参考訳(メタデータ) (2020-08-06T19:08:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。