論文の概要: UFO: A UI-Focused Agent for Windows OS Interaction
- arxiv url: http://arxiv.org/abs/2402.07939v4
- Date: Fri, 1 Mar 2024 05:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 13:53:12.647680
- Title: UFO: A UI-Focused Agent for Windows OS Interaction
- Title(参考訳): UFO: Windows OSインタラクションのためのUI指向エージェント
- Authors: Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua
Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
- Abstract要約: われわれは,Windows OS上のアプリケーションに適したユーザ要求を満たす,革新的なUIフォーカスエージェントであるUFOを紹介した。
UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。
我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。
- 参考スコア(独自算出の注目度): 42.03890246371594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce UFO, an innovative UI-Focused agent to fulfill user requests
tailored to applications on Windows OS, harnessing the capabilities of
GPT-Vision. UFO employs a dual-agent framework to meticulously observe and
analyze the graphical user interface (GUI) and control information of Windows
applications. This enables the agent to seamlessly navigate and operate within
individual applications and across them to fulfill user requests, even when
spanning multiple applications. The framework incorporates a control
interaction module, facilitating action grounding without human intervention
and enabling fully automated execution. Consequently, UFO transforms arduous
and time-consuming processes into simple tasks achievable solely through
natural language commands. We conducted testing of UFO across 9 popular Windows
applications, encompassing a variety of scenarios reflective of users' daily
usage. The results, derived from both quantitative metrics and real-case
studies, underscore the superior effectiveness of UFO in fulfilling user
requests. To the best of our knowledge, UFO stands as the first UI agent
specifically tailored for task completion within the Windows OS environment.
The open-source code for UFO is available on https://github.com/microsoft/UFO.
- Abstract(参考訳): GPT-Vision の機能を活用し,Windows OS 上のアプリケーションに適したユーザ要求を満たす,革新的な UI フォーカスエージェントである UFO を紹介する。
UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。
これによってエージェントは、複数のアプリケーションにまたがる場合でも、個々のアプリケーション内でシームレスにナビゲートし、操作し、ユーザ要求を満たすことができます。
このフレームワークにはコントロールインタラクションモジュールが組み込まれており、人間の介入なしにアクションのグラウンディングを容易にし、完全に自動化された実行を可能にする。
その結果、UFOは困難で時間のかかるプロセスを自然言語コマンドでのみ達成可能な単純なタスクに変換する。
我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。
その結果,UFOによるユーザ要求の達成効果は,定量的な測定値と実例調査の両方から得られた。
私たちの知る限りでは、ufoはwindows os環境でタスク完了用に特別に調整された最初のuiエージェントです。
ufoのオープンソースコードはhttps://github.com/microsoft/ufoで入手できる。
関連論文リスト
- UFO: Unidentified Foreground Object Detection in 3D Point Cloud [7.286344230797102]
既存の3Dオブジェクト検出器は、3Dローカライゼーションとアウト・オブ・ディストリビューション検出の両方において困難な課題に直面する。
評価プロトコル,方法論,ベンチマークの3つのタスクを含む新しいUFO検出フレームワークを提案する。
提案したフレームワークは、4つのベースライン検出器の全てにまたがる大きなマージンによって、継続的に性能を向上させる。
論文 参考訳(メタデータ) (2024-01-08T12:16:06Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [59.772904419928054]
大規模視覚言語モデル (VLM) はマルチモーダル認識と推論において大きな進歩を遂げた。
本稿では,エージェントの視覚とテキストタスクの目的を正確に解読する新しいVLMであるOctopusを紹介する。
我々の設計では、シミュレーターの日常的な雑用から複雑なビデオゲームの高度なインタラクションまで、エージェントは幅広いタスクを十分に扱えるようにしている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [43.850040967091616]
Auto-UIはインターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は30Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - Mobile-Env: An Evaluation Platform and Benchmark for LLM-GUI Interaction [22.17170313685781]
GUIインタラクションプラットフォームであるMobile-Envについて紹介する。
WikiHowアプリに基づくGUIタスクセットはMobile-Envで収集され、さまざまなGUIインタラクション機能をカバーするベンチマークを形成する。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z) - UFO: Unified Feature Optimization [67.77936811483664]
本稿では、深層モデルの訓練と展開のための新しい統一特徴最適化(UFO)パラダイムを提案する。
UFOは、すべてのタスクに対して大規模な事前訓練を行うことで、各タスクに利益をもたらすことを目指している。
UFOは、大規模な事前訓練の利点を維持しながら、柔軟な展開に優れた利便性を提供する。
論文 参考訳(メタデータ) (2022-07-21T07:34:06Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。