論文の概要: ShowUI-Aloha: Human-Taught GUI Agent
- arxiv url: http://arxiv.org/abs/2601.07181v1
- Date: Mon, 12 Jan 2026 04:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.201578
- Title: ShowUI-Aloha: Human-Taught GUI Agent
- Title(参考訳): ShowUI-Aloha:GUIエージェント
- Authors: Yichun Zhang, Xiangwu Guo, Yauhong Goh, Jessica Hu, Zhiheng Chen, Xin Wang, Difei Gao, Mike Zheng Shou,
- Abstract要約: ShowUI-Alohaは、非構造化され、その内部の人間のスクリーン記録を構造化され、実行可能なタスクに変換する。
学習者はこれらの生の相互作用と周囲の視覚的文脈を意味論的に解釈し、それらを記述的な自然言語キャプションに翻訳する。
解析されたデモを読み、タスク状態を維持し、次のハイレベルアクションプランを動的に定式化するプランナー。
- 参考スコア(独自算出の注目度): 46.35538753446132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interfaces (GUIs) are central to human-computer interaction, yet automating complex GUI tasks remains a major challenge for autonomous agents, largely due to a lack of scalable, high-quality training data. While recordings of human demonstrations offer a rich data source, they are typically long, unstructured, and lack annotations, making them difficult for agents to learn from.To address this, we introduce ShowUI-Aloha, a comprehensive pipeline that transforms unstructured, in-the-wild human screen recordings from desktop environments into structured, actionable tasks. Our framework includes four key components: A recorder that captures screen video along with precise user interactions like mouse clicks, keystrokes, and scrolls. A learner that semantically interprets these raw interactions and the surrounding visual context, translating them into descriptive natural language captions. A planner that reads the parsed demonstrations, maintains task states, and dynamically formulates the next high-level action plan based on contextual reasoning. An executor that faithfully carries out these action plans at the OS level, performing precise clicks, drags, text inputs, and window operations with safety checks and real-time feedback. Together, these components provide a scalable solution for collecting and parsing real-world human data, demonstrating a viable path toward building general-purpose GUI agents that can learn effectively from simply observing humans.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)は人間とコンピュータのインタラクションの中心であるが、複雑なGUIタスクを自動化することは、主にスケーラブルで高品質なトレーニングデータがないために、自律的なエージェントにとって大きな課題である。
人間のデモの録画はリッチなデータソースを提供するが、それらは一般的に長く、構造化されていない、アノテーションがないため、エージェントがそこから学ぶのが難しい。これに対処するために、ShowUI-Alohaを紹介します。
私たちのフレームワークには4つの重要なコンポーネントが含まれています。レコーダーは、マウスクリック、キーストローク、スクロールといった正確なユーザーインタラクションとともに、スクリーンビデオをキャプチャします。
これらの生の相互作用と周囲の視覚的文脈を意味論的に解釈する学習者は、それらを記述的な自然言語キャプションに翻訳する。
解析されたデモを読み、タスク状態を維持し、コンテキスト推論に基づいて次のハイレベルアクションプランを動的に定式化するプランナー。
OSレベルでこれらのアクション計画を忠実に実行し、正確なクリック、ドラッグ、テキスト入力、ウィンドウ操作を安全チェックとリアルタイムフィードバックで実行します。
これらのコンポーネントは、現実世界の人間のデータを収集、解析するためのスケーラブルなソリューションを提供し、人間の観察から効果的に学習できる汎用GUIエージェントを構築するための実行可能な道を示す。
関連論文リスト
- ScreenLLM: Stateful Screen Schema for Efficient Action Understanding and Prediction [15.220300812671494]
先進的なUI理解とアクション予測に適したマルチモーダル大規模言語モデル(MLLM)のセットであるScreenLLMを紹介する。
我々の研究は、多様なソフトウェア環境におけるユーザインタラクションを強化するスケーラブルで堅牢でインテリジェントなGUIエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2025-03-26T20:41:24Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - From Pixels to UI Actions: Learning to Follow Instructions via Graphical
User Interfaces [66.85108822706489]
本稿では,人間がよく使う概念的インタフェースを用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。
このようなエージェントは、タスクに従うGUIベースの命令のMiniWob++ベンチマークで、人間のクラウドワーカーより優れています。
論文 参考訳(メタデータ) (2023-05-31T23:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。