論文の概要: CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only
- arxiv url: http://arxiv.org/abs/2406.06947v2
- Date: Fri, 18 Oct 2024 05:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:22:12.912189
- Title: CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only
- Title(参考訳): CAAP: フロントエンドUIのみでコンピュータタスクを解決するためのコンテキスト対応アクションプランニング
- Authors: Junhee Cho, Jihoon Kim, Daseul Bae, Jinho Choo, Youngjune Gwon, Yeong-Dae Kwon,
- Abstract要約: 本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
- 参考スコア(独自算出の注目度): 21.054681757006385
- License:
- Abstract: Software robots have long been used in Robotic Process Automation (RPA) to automate mundane and repetitive computer tasks. With the advent of Large Language Models (LLMs) and their advanced reasoning capabilities, these agents are now able to handle more complex or previously unseen tasks. However, LLM-based automation techniques in recent literature frequently rely on HTML source code for input or application-specific API calls for actions, limiting their applicability to specific environments. We propose an LLM-based agent that mimics human behavior in solving computer tasks. It perceives its environment solely through screenshot images, which are then converted into text for an LLM to process. By leveraging the reasoning capability of the LLM, we eliminate the need for large-scale human demonstration data typically required for model training. The agent only executes keyboard and mouse operations on Graphical User Interface (GUI), removing the need for pre-provided APIs to function. To further enhance the agent's performance in this setting, we propose a novel prompting strategy called Context-Aware Action Planning (CAAP) prompting, which enables the agent to thoroughly examine the task context from multiple perspectives. Our agent achieves an average success rate of 94.5% on MiniWoB++ and an average task score of 62.3 on WebShop, outperforming all previous studies of agents that rely solely on screen images. This method demonstrates potential for broader applications, particularly for tasks requiring coordination across multiple applications on desktops or smartphones, marking a significant advancement in the field of automation agents. Codes and models are accessible at https://github.com/caap-agent/caap-agent.
- Abstract(参考訳): ソフトウェアロボットは、昔からロボットプロセス自動化(RPA)において、日常的かつ反復的なコンピュータタスクを自動化するために使われてきた。
LLM(Large Language Models)の出現と高度な推論能力により、これらのエージェントはより複雑で、以前は目に見えないタスクを処理できるようになった。
しかし、近年のLLMベースの自動化技術は、入出力やアプリケーション固有のAPI呼び出しにしばしばHTMLソースコードに依存しており、特定の環境に適用性を制限する。
コンピュータタスクを解く際の人間の振る舞いを模倣するLLMエージェントを提案する。
その環境をスクリーンショット画像でのみ認識し、LLMが処理するテキストに変換する。
LLMの推論能力を活用することで、モデルトレーニングに通常必要とされる大規模な人間の実演データの必要性を解消する。
エージェントはGUI(Graphical User Interface)上でキーボードとマウス操作のみを実行するため、事前に用意されたAPIが機能する必要がなくなる。
この設定におけるエージェントのパフォーマンスをさらに高めるために、エージェントが複数の視点からタスクコンテキストを徹底的に調べることのできる、コンテキスト認識行動計画(CAAP)プロンプトと呼ばれる新しいプロンプト戦略を提案する。
我々のエージェントは、MiniWoB++の平均成功率94.5%、WebShopの平均タスクスコア62.3を達成し、スクリーンイメージのみに依存したエージェントのこれまでのすべての研究を上回った。
この方法は、特にデスクトップやスマートフォン上の複数のアプリケーション間の協調を必要とするタスクにおいて、より広範なアプリケーションの可能性を示し、自動化エージェントの分野での大きな進歩を示している。
コードとモデルはhttps://github.com/caap-agent/caap-agentでアクセスできる。
関連論文リスト
- AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents [0.0]
ClickAgentは、自律エージェントを構築するための新しいフレームワークである。
ClickAgentでは、MLLMが推論とアクションプランニングを処理し、別のUIロケーションモデルが画面上の関連するUI要素を識別する。
本評価は,Androidスマートフォンエミュレータと実際のAndroidスマートフォンの両方で実施し,タスク成功率をエージェント性能測定の指標として用いた。
論文 参考訳(メタデータ) (2024-10-09T14:49:02Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents [40.86728610906313]
AXISは、ユーザインタフェースアクションよりもアプリケーションプログラミングインターフェース(API)を通してアクションを優先順位付けする、LLMベースの新しいエージェントフレームワークである。
Office Wordでの実験では、AXISはタスク完了時間を65%-70%削減し、認知負荷を38%-53%削減し、精度は97%-98%と人間と比較した。
また、すべてのアプリケーションをエージェントに変え、エージェント中心のオペレーティングシステム(Agent OS)への道を開く可能性についても検討している。
論文 参考訳(メタデータ) (2024-09-25T17:58:08Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。