論文の概要: You Only Look at Screens: Multimodal Chain-of-Action Agents
- arxiv url: http://arxiv.org/abs/2309.11436v2
- Date: Thu, 21 Sep 2023 03:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 11:33:31.177185
- Title: You Only Look at Screens: Multimodal Chain-of-Action Agents
- Title(参考訳): スクリーンだけ見る:マルチモーダル・チェーン・オブ・アクション・エージェント
- Authors: Zhuosheng Zhang, Aston Zhang
- Abstract要約: Auto-UIはインターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は30Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 43.850040967091616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous user interface (UI) agents aim to facilitate task automation by
interacting with the user interface without manual intervention. Recent studies
have investigated eliciting the capabilities of large language models (LLMs)
for effective engagement in diverse environments. To align with the
input-output requirement of LLMs, existing approaches are developed under a
sandbox setting where they rely on external tools and application-specific APIs
to parse the environment into textual elements and interpret the predicted
actions. Consequently, those approaches often grapple with inference
inefficiency and error propagation risks. To mitigate the challenges, we
introduce Auto-UI, a multimodal solution that directly interacts with the
interface, bypassing the need for environment parsing or reliance on
application-dependent APIs. Moreover, we propose a chain-of-action technique --
leveraging a series of intermediate previous action histories and future action
plans -- to help the agent decide what action to execute. We evaluate our
approach on a new device-control benchmark AITW with 30K unique instructions,
spanning multi-step tasks such as application operation, web searching, and web
shopping. Experimental results show that Auto-UI achieves state-of-the-art
performance with an action type prediction accuracy of 90% and an overall
action success rate of 74%. Code is publicly available at
https://github.com/cooelf/Auto-UI.
- Abstract(参考訳): 自律ユーザインターフェース(UI)エージェントは、手作業による介入なしにユーザインターフェースと対話することで、タスクの自動化を促進する。
近年,多様な環境において,大規模言語モデル(LLM)を効果的に活用する能力について検討している。
LLMの入出力要件に合わせて、既存のアプローチはサンドボックス環境下で開発され、外部ツールやアプリケーション固有のAPIを使って環境をテキスト要素に解析し、予測されたアクションを解釈する。
したがって、これらのアプローチは推論の非効率性やエラー伝播のリスクに苦しむことが多い。
課題を軽減するため、私たちはAuto-UIという、インターフェースと直接対話するマルチモーダルソリューションを導入し、環境解析やアプリケーション依存APIへの依存を回避します。
さらに、エージェントが実行すべきアクションを決定するのを助けるために、一連の前回のアクション履歴と将来のアクションプランを推定するチェーン・オブ・アクション手法を提案する。
我々は,アプリケーション操作,web検索,webショッピングなどのマルチステップタスクにまたがる,30kのユニークな命令を持つ新しいデバイス制御ベンチマークaitwのアプローチを評価した。
実験の結果,auto-uiは90%の動作タイプ予測精度と74%の動作成功率で最先端の性能を達成できた。
コードはhttps://github.com/cooelf/Auto-UIで公開されている。
関連論文リスト
- UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。
テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。
実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-24T13:41:47Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input [54.81155589931697]
我々は,ナビゲーション中の動的エージェントと人間との相互作用を考慮したCoIN(Collaborative Instance Navigation)を提案する。
CoINに対処するために,新しいエージェント・ユーザ・インタラクションとUncerTainty Awareness (AIUTA)を提案する。
AIUTAは、最先端のメソッドに対するナビゲーションにおける競合的なパフォーマンスを実現し、ユーザの入力を処理する際の柔軟性を示している。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。