論文の概要: Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems
- arxiv url: http://arxiv.org/abs/2407.13032v1
- Date: Wed, 17 Jul 2024 21:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:23:28.017868
- Title: Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems
- Title(参考訳): Agent-E: 自律型Webナビゲーションからエージェントシステムの基本設計原理へ
- Authors: Tamer Abuelsaad, Deepak Akkil, Prasenjit Dey, Ashish Jagmohan, Aditya Vempaty, Ravi Kokku,
- Abstract要約: 本稿では,新しいWebエージェントであるAgent-Eの構築について紹介する。
Agent-Eは、最先端のWebエージェントよりも多くのアーキテクチャ改善を導入している。
我々は,Agent-Eが他のSOTAテキストおよびマルチモーダルWebエージェントを,ほとんどのカテゴリで10~30%上回っていることを示す。
- 参考スコア(独自算出の注目度): 1.079505444748609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI Agents are changing the way work gets done, both in consumer and enterprise domains. However, the design patterns and architectures to build highly capable agents or multi-agent systems are still developing, and the understanding of the implication of various design choices and algorithms is still evolving. In this paper, we present our work on building a novel web agent, Agent-E \footnote{Our code is available at \url{https://github.com/EmergenceAI/Agent-E}}. Agent-E introduces numerous architectural improvements over prior state-of-the-art web agents such as hierarchical architecture, flexible DOM distillation and denoising method, and the concept of \textit{change observation} to guide the agent towards more accurate performance. We first present the results of an evaluation of Agent-E on WebVoyager benchmark dataset and show that Agent-E beats other SOTA text and multi-modal web agents on this benchmark in most categories by 10-30\%. We then synthesize our learnings from the development of Agent-E into general design principles for developing agentic systems. These include the use of domain-specific primitive skills, the importance of distillation and de-noising of environmental observations, the advantages of a hierarchical architecture, and the role of agentic self-improvement to enhance agent efficiency and efficacy as the agent gathers experience.
- Abstract(参考訳): AIエージェントは、コンシューマードメインとエンタープライズドメインの両方で、仕事の仕方を変えています。
しかし、高度に能力のあるエージェントやマルチエージェントシステムを構築するための設計パターンやアーキテクチャはいまだ発展途上であり、様々な設計選択やアルゴリズムの意味を理解することはいまだ発展途上である。
本稿では,新しいWebエージェントである Agent-E \footnote{Our code is available at \url{https://github.com/EmergenceAI/Agent-E}} について述べる。
Agent-Eは、階層型アーキテクチャ、フレキシブルDOM蒸留および復調法、そしてエージェントをより正確なパフォーマンスに導くための‘textit{change Observation}’の概念といった、最先端のWebエージェントよりも多くのアーキテクチャ改善を導入している。
まず、WebVoyagerベンチマークデータセット上でAgent-Eの評価結果を示し、多くのカテゴリにおいて、Agent-Eが他のSOTAテキストやマルチモーダルWebエージェントを10~30倍に上回っていることを示す。
次にエージェント-Eの開発から学んだことを,エージェントシステム開発のための一般的な設計原則に合成する。
これには、ドメイン固有の原始的スキルの使用、環境観測の蒸留と脱ノイズの重要性、階層的アーキテクチャの利点、エージェントが経験を集めるにつれて、エージェントの効率性と有効性を高めるためのエージェント的自己改善の役割が含まれる。
関連論文リスト
- Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは進化的アルゴリズムによって専門家エージェントをマルチエージェントシステムに自動的に拡張する汎用的な手法である。
EvoAgentは複数の専門家エージェントを自動生成し,LLMエージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey [0.0]
本稿では,AIエージェントの実装の最近の進歩について考察する。
推論、計画、ツールの実行能力の強化を必要とする複雑な目標を達成する能力に重点を置いている。
論文 参考訳(メタデータ) (2024-04-17T17:32:41Z) - AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
我々はエージェント開発の全ライフサイクルをカバーするオンラインで現実的でマルチモーダルなツールキットであるAgentStudioを紹介した。
これには環境設定、データ収集、エージェント評価、可視化が含まれる。
環境、データセット、ベンチマーク、インターフェースをオープンソース化し、一般的な仮想エージェントの開発に向けた研究を促進しました。
論文 参考訳(メタデータ) (2024-03-26T17:54:15Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - An In-depth Survey of Large Language Model-based Artificial Intelligence
Agents [11.774961923192478]
LLMベースのAIエージェントと従来のAIエージェントの主な違いと特徴について検討した。
我々は、計画、記憶、ツール使用を含むAIエージェントの重要なコンポーネントについて、詳細な分析を行った。
論文 参考訳(メタデータ) (2023-09-23T11:25:45Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Toward a Reasoning and Learning Architecture for Ad Hoc Teamwork [4.454557728745761]
先行調整のないエージェントチームにおけるコラボレーションを指すアドホックなチームワークのためのアーキテクチャを提案する。
私たちのアーキテクチャは、知識ベースとデータ駆動推論と学習の原則を組み合わせています。
シミュレーションされたマルチエージェントのコラボレーションドメインであるFort Attackを使って、アーキテクチャが予期せぬ変更への適応をサポートすることを実証しています。
論文 参考訳(メタデータ) (2022-08-24T13:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。