論文の概要: Agent S: An Open Agentic Framework that Uses Computers Like a Human
- arxiv url: http://arxiv.org/abs/2410.08164v1
- Date: Thu, 10 Oct 2024 17:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 05:05:45.005380
- Title: Agent S: An Open Agentic Framework that Uses Computers Like a Human
- Title(参考訳): Agent S: コンピュータを人間のように利用するオープンエージェントフレームワーク
- Authors: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang,
- Abstract要約: 我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
- 参考スコア(独自算出の注目度): 31.16046798529319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Agent S, an open agentic framework that enables autonomous interaction with computers through a Graphical User Interface (GUI), aimed at transforming human-computer interaction by automating complex, multi-step tasks. Agent S aims to address three key challenges in automating computer tasks: acquiring domain-specific knowledge, planning over long task horizons, and handling dynamic, non-uniform interfaces. To this end, Agent S introduces experience-augmented hierarchical planning, which learns from external knowledge search and internal experience retrieval at multiple levels, facilitating efficient task planning and subtask execution. In addition, it employs an Agent-Computer Interface (ACI) to better elicit the reasoning and control capabilities of GUI agents based on Multimodal Large Language Models (MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves a new state-of-the-art. Comprehensive analysis highlights the effectiveness of individual components and provides insights for future improvements. Furthermore, Agent S demonstrates broad generalizability to different operating systems on a newly-released WindowsAgentArena benchmark. Code available at https://github.com/simular-ai/Agent-S.
- Abstract(参考訳): 我々は,複雑なマルチステップタスクを自動化して人-コンピュータインタラクションをトランスフォーメーションすることを目的とした,GUI(Graphical User Interface)を介してコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
この目的のために、Agent Sは、外部知識検索と内部経験検索から複数のレベルで学習し、効率的なタスク計画とサブタスク実行を容易にする、経験拡張階層計画を導入した。
さらに、マルチモーダル大言語モデル(MLLM)に基づくGUIエージェントの推論と制御能力を向上するために、エージェント・コンピュータ・インタフェース(ACI)を採用している。
OSWorldベンチマークの評価によると、エージェントSは成功率(83.6%の相対的な改善)でベースラインを9.37%上回り、新しい最先端を達成する。
包括的分析は、個々のコンポーネントの有効性を強調し、将来の改善に対する洞察を提供する。
さらに、エージェントSは、新しくリリースされたWindowsAgentArenaベンチマークで、異なるオペレーティングシステムに対して広範な一般化性を示す。
コードはhttps://github.com/simular-ai/Agent-S.comで公開されている。
関連論文リスト
- SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
SPA-Benchは3つの重要なコントリビューションを提供している。 英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。
複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents [0.0]
ClickAgentは、自律エージェントを構築するための新しいフレームワークである。
ClickAgentでは、MLLMが推論とアクションプランニングを処理し、別のUIロケーションモデルが画面上の関連するUI要素を識別する。
本評価は,Androidスマートフォンエミュレータと実際のAndroidスマートフォンの両方で実施し,タスク成功率をエージェント性能測定の指標として用いた。
論文 参考訳(メタデータ) (2024-10-09T14:49:02Z) - Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents [40.86728610906313]
AXISは、ユーザインタフェースアクションよりもアプリケーションプログラミングインターフェース(API)を通してアクションを優先順位付けする、LLMベースの新しいエージェントフレームワークである。
Office Wordでの実験では、AXISはタスク完了時間を65%-70%削減し、認知負荷を38%-53%削減し、精度は97%-98%と人間と比較した。
また、すべてのアプリケーションをエージェントに変え、エージェント中心のオペレーティングシステム(Agent OS)への道を開く可能性についても検討している。
論文 参考訳(メタデータ) (2024-09-25T17:58:08Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。