論文の概要: UFO: A UI-Focused Agent for Windows OS Interaction
- arxiv url: http://arxiv.org/abs/2402.07939v5
- Date: Thu, 23 May 2024 05:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 06:50:03.329336
- Title: UFO: A UI-Focused Agent for Windows OS Interaction
- Title(参考訳): UFO: Windows OSインタラクションのためのUI指向エージェント
- Authors: Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang,
- Abstract要約: われわれは,Windows OS上のアプリケーションに適したユーザ要求を満たす,革新的なUIフォーカスエージェントであるUFOを紹介した。
UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。
我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。
- 参考スコア(独自算出の注目度): 40.9389397337166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
- Abstract(参考訳): GPT-Vision の機能を活用し,Windows OS 上のアプリケーションに適したユーザ要求を満たす,革新的な UI フォーカスエージェントである UFO を紹介する。
UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。
これによってエージェントは、複数のアプリケーションにまたがる場合でも、個々のアプリケーション内でシームレスにナビゲートし、操作し、ユーザ要求を満たすことができます。
このフレームワークにはコントロールインタラクションモジュールが組み込まれており、人間の介入なしにアクションのグラウンディングを容易にし、完全に自動化された実行を可能にする。
その結果、UFOは困難で時間のかかるプロセスを、自然言語コマンドでのみ達成可能な単純なタスクに変換する。
我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。
その結果,UFOによるユーザ要求の達成効果は,定量的な測定値と実例調査の両方から得られた。
私たちの知る限りでは、UFOはWindows OS環境内でタスク完了用に特別に調整された最初のUIエージェントである。
UFOのオープンソースコードはhttps://github.com/microsoft/UFOで公開されている。
関連論文リスト
- Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents [40.86728610906313]
AXISは、ユーザインタフェースアクションよりもアプリケーションプログラミングインターフェース(API)を通してアクションを優先順位付けする、LLMベースの新しいエージェントフレームワークである。
Office Wordでの実験では、AXISはタスク完了時間を65%-70%削減し、認知負荷を38%-53%削減し、精度は97%-98%と人間と比較した。
また、すべてのアプリケーションをエージェントに変え、エージェント中心のオペレーティングシステム(Agent OS)への道を開く可能性についても検討している。
論文 参考訳(メタデータ) (2024-09-25T17:58:08Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Human-Centered LLM-Agent User Interface: A Position Paper [8.675534401018407]
大規模言語モデル (LLM) - ループ内でのアプリケーションは、人間のコマンドを効果的に解釈できることが示されている。
基盤となるツールやシステムにほとんど無知なユーザは、LAUIを使って創発的なワークフローを見つけることができるべきです。
論文 参考訳(メタデータ) (2024-05-19T13:02:45Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - UFO: Unidentified Foreground Object Detection in 3D Point Cloud [7.286344230797102]
既存の3Dオブジェクト検出器は、3Dローカライゼーションとアウト・オブ・ディストリビューション検出の両方において困難な課題に直面する。
評価プロトコル,方法論,ベンチマークの3つのタスクを含む新しいUFO検出フレームワークを提案する。
提案したフレームワークは、4つのベースライン検出器の全てにまたがる大きなマージンによって、継続的に性能を向上させる。
論文 参考訳(メタデータ) (2024-01-08T12:16:06Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - UFO: Unified Feature Optimization [67.77936811483664]
本稿では、深層モデルの訓練と展開のための新しい統一特徴最適化(UFO)パラダイムを提案する。
UFOは、すべてのタスクに対して大規模な事前訓練を行うことで、各タスクに利益をもたらすことを目指している。
UFOは、大規模な事前訓練の利点を維持しながら、柔軟な展開に優れた利便性を提供する。
論文 参考訳(メタデータ) (2022-07-21T07:34:06Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。