論文の概要: CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only
- arxiv url: http://arxiv.org/abs/2406.06947v1
- Date: Tue, 11 Jun 2024 05:21:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 17:35:03.935382
- Title: CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only
- Title(参考訳): CAAP: フロントエンドUIのみでコンピュータタスクを解決するためのコンテキスト対応アクションプランニング
- Authors: Junhee Cho, Jihoon Kim, Daseul Bae, Jinho Choo, Youngjune Gwon, Yeong-Dae Kwon,
- Abstract要約: 高度な推論能力を持つ大規模言語モデル(LLM)は、エージェントがより複雑で以前は目に見えないタスクをこなすためのステージを定めている。
環境認識のためのスクリーンショットのみに基づいて機能するエージェントを提案する。
67種類のMiniWoB++問題に対して94.4%の成功率を達成した。
- 参考スコア(独自算出の注目度): 21.054681757006385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software robots have long been deployed in Robotic Process Automation (RPA) to automate mundane and repetitive computer tasks. The advent of Large Language Models (LLMs) with advanced reasoning capabilities has set the stage for these agents to now undertake more complex and even previously unseen tasks. However, the LLM-based automation techniques in recent literature frequently rely on HTML source codes for input, limiting their application to web environments. Moreover, the information contained in HTML codes is often inaccurate or incomplete, making the agent less reliable for practical applications. We propose an LLM-based agent that functions solely on the basis of screenshots for recognizing environments, while leveraging in-context learning to eliminate the need for collecting large datasets of human demonstration. Our strategy, named Context-Aware Action Planning (CAAP) prompting encourages the agent to meticulously review the context in various angles. Through our proposed methodology, we achieve a success rate of 94.4% on 67~types of MiniWoB++ problems, utilizing only 1.48~demonstrations per problem type. Our method offers the potential for broader applications, especially for tasks that require inter-application coordination on computers or smartphones, showcasing a significant advancement in the field of automation agents. Codes and models are accessible at https://github.com/caap-agent/caap-agent.
- Abstract(参考訳): ソフトウェアロボットは、日常的かつ反復的なコンピュータタスクを自動化するために、長い間ロボット処理自動化(Roboic Process Automation, RPA)にデプロイされてきた。
高度な推論能力を持つLarge Language Models(LLMs)の出現は、これらのエージェントがより複雑で、以前は目に見えなかったタスクをこなすステージを固めている。
しかし、最近の文献におけるLLMベースの自動化技術は、しばしば入力のためのHTMLソースコードに依存しており、アプリケーションをWeb環境に制限している。
さらに、HTMLコードに含まれる情報は、しばしば不正確または不完全であり、エージェントは実用的なアプリケーションでは信頼性が低い。
本研究では,環境認識のためのスクリーンショットのみに基づいて機能するLDMエージェントを提案する。
我々の戦略は、コンテキスト認識行動計画(CAAP)と呼ばれ、エージェントが様々な角度でコンテキストを注意深くレビューするよう促す。
提案手法により,67種類のMiniWoB++問題に対して94.4%の成功率を達成した。
提案手法は,特にコンピュータやスマートフォン上でのアプリケーション間協調を必要とするタスクに対して,より広範な応用の可能性を提供し,自動化エージェントの分野での大きな進歩を示す。
コードとモデルはhttps://github.com/caap-agent/caap-agentでアクセスできる。
関連論文リスト
- Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
エージェントベースのアプローチの冗長で複雑な設定と比較すると、エージェントレスは局所化の単純化された2段階のプロセスを採用し、修理を行う。
人気の高いSWE-bench Liteベンチマークの結果、驚くほど単純なAgentlessは、既存のすべてのオープンソースソフトウェアエージェントと比較して、最高のパフォーマンス(27.33%)と最低コスト(0.34ドル)を達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - ProAgent: From Robotic Process Automation to Agentic Process Automation [87.0555252338361]
LLM(Large Language Models)は、人間のような知性を持つ言語である。
本稿では,ALMをベースとしたエージェントを用いた高度な自動化のための基盤的自動化パラダイムであるエージェントプロセス自動化(APA)を紹介する。
そして、人間の指示を駆使し、特殊エージェントの調整によって複雑な決定を下すように設計されたエージェントであるProAgentをインスタンス化する。
論文 参考訳(メタデータ) (2023-11-02T14:32:16Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。