論文の概要: You Only Look at Screens: Multimodal Chain-of-Action Agents
- arxiv url: http://arxiv.org/abs/2309.11436v2
- Date: Thu, 21 Sep 2023 03:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 11:33:31.177185
- Title: You Only Look at Screens: Multimodal Chain-of-Action Agents
- Title(参考訳): スクリーンだけ見る:マルチモーダル・チェーン・オブ・アクション・エージェント
- Authors: Zhuosheng Zhang, Aston Zhang
- Abstract要約: Auto-UIはインターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は30Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 43.850040967091616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous user interface (UI) agents aim to facilitate task automation by
interacting with the user interface without manual intervention. Recent studies
have investigated eliciting the capabilities of large language models (LLMs)
for effective engagement in diverse environments. To align with the
input-output requirement of LLMs, existing approaches are developed under a
sandbox setting where they rely on external tools and application-specific APIs
to parse the environment into textual elements and interpret the predicted
actions. Consequently, those approaches often grapple with inference
inefficiency and error propagation risks. To mitigate the challenges, we
introduce Auto-UI, a multimodal solution that directly interacts with the
interface, bypassing the need for environment parsing or reliance on
application-dependent APIs. Moreover, we propose a chain-of-action technique --
leveraging a series of intermediate previous action histories and future action
plans -- to help the agent decide what action to execute. We evaluate our
approach on a new device-control benchmark AITW with 30K unique instructions,
spanning multi-step tasks such as application operation, web searching, and web
shopping. Experimental results show that Auto-UI achieves state-of-the-art
performance with an action type prediction accuracy of 90% and an overall
action success rate of 74%. Code is publicly available at
https://github.com/cooelf/Auto-UI.
- Abstract(参考訳): 自律ユーザインターフェース(UI)エージェントは、手作業による介入なしにユーザインターフェースと対話することで、タスクの自動化を促進する。
近年,多様な環境において,大規模言語モデル(LLM)を効果的に活用する能力について検討している。
LLMの入出力要件に合わせて、既存のアプローチはサンドボックス環境下で開発され、外部ツールやアプリケーション固有のAPIを使って環境をテキスト要素に解析し、予測されたアクションを解釈する。
したがって、これらのアプローチは推論の非効率性やエラー伝播のリスクに苦しむことが多い。
課題を軽減するため、私たちはAuto-UIという、インターフェースと直接対話するマルチモーダルソリューションを導入し、環境解析やアプリケーション依存APIへの依存を回避します。
さらに、エージェントが実行すべきアクションを決定するのを助けるために、一連の前回のアクション履歴と将来のアクションプランを推定するチェーン・オブ・アクション手法を提案する。
我々は,アプリケーション操作,web検索,webショッピングなどのマルチステップタスクにまたがる,30kのユニークな命令を持つ新しいデバイス制御ベンチマークaitwのアプローチを評価した。
実験の結果,auto-uiは90%の動作タイプ予測精度と74%の動作成功率で最先端の性能を達成できた。
コードはhttps://github.com/cooelf/Auto-UIで公開されている。
関連論文リスト
- Comprehensive Cognitive LLM Agent for Smartphone GUI Automation [69.32269322774543]
大規模言語モデル(LLM)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
我々は、包括的環境認識(CEP)と条件付き行動予測(CAP)という2つの新しいアプローチで、包括的包括的アンダーラインAgent(CoCo-Agent)を提案する。
本稿では, AITW と META-GUI ベンチマークにおいて, 現実的なシナリオにおいて有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web
Tasks [96.9727427788202]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - AUTOACT: Automatic Agent Learning from Scratch via Self-Planning [56.81725335882185]
AutoActは、大規模アノテートデータやクローズドソースモデルからの合成軌跡に依存しない自動エージェント学習フレームワークである。
我々は異なるLLMを用いて総合的な実験を行い、AutoActは様々な強力なベースラインと比較して優れた性能または並列性能が得られることを示した。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z) - MUG: Interactive Multimodal Grounding on User Interfaces [12.035123646959669]
本稿では,ユーザとエージェントがインタフェース画面上で協調作業を行うマルチモーダルグラウンドのための対話型タスクMUGを提案する。
ユーザがコマンドを与え、エージェントがコマンドに応答する。MUGはエージェントの応答を見る際に、エージェントがそのアクションを洗練または修正するための追加コマンドを与えるように、複数のラウンドのインタラクションを可能にする。
論文 参考訳(メタデータ) (2022-09-29T21:08:18Z) - Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。
このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。
また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T10:53:29Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。