論文の概要: SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs
- arxiv url: http://arxiv.org/abs/2501.09316v1
- Date: Thu, 16 Jan 2025 06:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:34.550554
- Title: SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs
- Title(参考訳): SOP-Agent: ドメイン固有のSOPを備えた汎用AIエージェント
- Authors: Anbang Ye, Qianran Ma, Jia Chen, Muqi Li, Tong Li, Fujiao Liu, Siqi Mai, Meichen Lu, Haitao Bao, Yang You,
- Abstract要約: 汎用AIエージェントは、ドメイン固有の知識と人間の専門知識を効率的に活用するのに苦労する。
ドメイン固有のエージェントを構築するための新しいフレームワークであるSOP-agent(Standard Operational Procedure-Guided Agent)を紹介する。
SOPエージェントは優れた汎用性を示し、汎用エージェントフレームワークよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 9.117180930298813
- License:
- Abstract: Despite significant advancements in general-purpose AI agents, several challenges still hinder their practical application in real-world scenarios. First, the limited planning capabilities of Large Language Models (LLM) restrict AI agents from effectively solving complex tasks that require long-horizon planning. Second, general-purpose AI agents struggle to efficiently utilize domain-specific knowledge and human expertise. In this paper, we introduce the Standard Operational Procedure-guided Agent (SOP-agent), a novel framework for constructing domain-specific agents through pseudocode-style Standard Operational Procedures (SOPs) written in natural language. Formally, we represent a SOP as a decision graph, which is traversed to guide the agent in completing tasks specified by the SOP. We conduct extensive experiments across tasks in multiple domains, including decision-making, search and reasoning, code generation, data cleaning, and grounded customer service. The SOP-agent demonstrates excellent versatility, achieving performance superior to general-purpose agent frameworks and comparable to domain-specific agent systems. Additionally, we introduce the Grounded Customer Service Benchmark, the first benchmark designed to evaluate the grounded decision-making capabilities of AI agents in customer service scenarios based on SOPs.
- Abstract(参考訳): 汎用AIエージェントの大幅な進歩にもかかわらず、現実のシナリオにおける実践的応用を妨げている課題もいくつかある。
まず、Large Language Models(LLM)の限られた計画能力は、長期計画を必要とする複雑なタスクを効果的に解決するAIエージェントを制限する。
第2に、汎用AIエージェントは、ドメイン固有の知識と人間の専門知識を効率的に活用するのに苦労する。
本稿では、自然言語で書かれた疑似コード型標準操作手順(SOP)を用いてドメイン固有のエージェントを構築するための新しいフレームワークである標準操作手順誘導エージェント(SOP-agent)を紹介する。
形式的には、SOPを決定グラフとして表現し、SOPが指定したタスクを完了させるエージェントを誘導する。
意思決定、検索と推論、コード生成、データのクリーニング、接地型カスタマーサービスなど、さまざまな領域でのタスクにわたる広範な実験を行います。
SOPエージェントは優れた汎用性を示し、汎用エージェントフレームワークよりもパフォーマンスが優れ、ドメイン固有のエージェントシステムに匹敵する。
さらに、SOPに基づいた顧客サービスシナリオにおけるAIエージェントの基盤的意思決定能力を評価するために設計された最初のベンチマークである、Grounded Customer Service Benchmarkを紹介します。
関連論文リスト
- Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。
PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。
成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - CACA Agent: Capability Collaboration based AI Agent [18.84686313298908]
本稿ではCACAエージェント(Capability Collaboration based AI Agent)を提案する。
CACA Agentは、単一のLLMへの依存を減らすだけでなく、AI Agentを実装するための一連のコラボレーティブ機能を統合する。
本稿ではCACAエージェントの動作とアプリケーションシナリオの拡張について説明する。
論文 参考訳(メタデータ) (2024-03-22T11:42:47Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Toward Policy Explanations for Multi-Agent Reinforcement Learning [18.33682005623418]
MARLのための2種類のポリシー記述を生成するための新しい手法を提案する。
3つのMARL領域の実験結果から,提案手法のスケーラビリティが実証された。
ユーザスタディでは、生成された説明がユーザパフォーマンスを著しく改善し、ユーザ満足度などの指標に対する主観的評価が向上することを示した。
論文 参考訳(メタデータ) (2022-04-26T20:07:08Z) - Modelling Multi-Agent Epistemic Planning in ASP [66.76082318001976]
本稿では,マルチショット・アンサー・セット・プログラミング・ベース・プランナの実装について述べる。
本稿は, アドホックなエピステミック状態表現とASPソルバの効率を生かしたプランナーが, 文献から収集したベンチマークに対して, 競合的な性能を示すことを示す。
論文 参考訳(メタデータ) (2020-08-07T06:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。