論文の概要: Agent Workflow Memory
- arxiv url: http://arxiv.org/abs/2409.07429v1
- Date: Wed, 11 Sep 2024 17:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:26:57.786899
- Title: Agent Workflow Memory
- Title(参考訳): エージェントワークフローメモリ
- Authors: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig,
- Abstract要約: 本稿では、一般的に再利用されるルーチンを誘導するAgent Memoryを紹介する。
AWMはベースラインの結果を24.6%、相対的な成功率51.1%で大幅に改善する。
オンラインAWMは、クロスタスク、ウェブサイト、ドメイン評価を強力に一般化する。
- 参考スコア(独自算出の注目度): 71.81385627556398
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the potential of language model-based agents to solve real-world tasks such as web navigation, current methods still struggle with long-horizon tasks with complex action trajectories. In contrast, humans can flexibly solve complex tasks by learning reusable task workflows from past experiences and using them to guide future actions. To build agents that can similarly benefit from this process, we introduce Agent Workflow Memory (AWM), a method for inducing commonly reused routines, i.e., workflows, and selectively providing workflows to the agent to guide subsequent generations. AWM flexibly applies to both offline and online scenarios, where agents induce workflows from training examples beforehand or from test queries on the fly. We experiment on two major web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover 1000+ tasks from 200+ domains across travel, shopping, and social media, among others. AWM substantially improves the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while reducing the number of steps taken to solve WebArena tasks successfully. Furthermore, online AWM robustly generalizes in cross-task, website, and domain evaluations, surpassing baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps widen.
- Abstract(参考訳): 言語モデルに基づくエージェントがWebナビゲーションのような現実世界のタスクを解く可能性にもかかわらず、現在の手法は複雑な行動軌跡を持つ長い水平タスクに苦戦している。
対照的に、人間は過去の経験から再利用可能なタスクワークフローを学び、それらを将来の行動を導くことで、複雑なタスクを柔軟に解決することができる。
このプロセスのメリットを享受できるエージェントを構築するために、AWM(Agent Workflow Memory)を紹介します。
AWMはオフラインとオンラインの両方のシナリオに柔軟に適用され、エージェントは事前にトレーニング例やテストクエリからワークフローを誘導する。
私たちはMind2WebとWebArenaという2つの主要なWebナビゲーションベンチマークを実験しました。
AWMは、Mind2WebとWebArenaの相対的な成功率を24.6%、51.1%向上させ、WebArenaのタスクをうまく解くためのステップの数を削減した。
さらに、オンラインのAWMはクロスタスク、Webサイト、ドメイン評価を強力に一般化し、8.9から14.0の絶対点を超えた。
関連論文リスト
- Residual Multi-Task Learner for Applied Ranking [11.774841918446137]
ResFlowは、効率的なクロスタスク情報共有を可能にする軽量なマルチタスク学習フレームワークである。
Shopee Searchのプレランクモジュールに完全にデプロイされている。
論文 参考訳(メタデータ) (2024-10-30T06:49:45Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。
我々は、LLMベースのフレームワークであるGenAgentを紹介した。
その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Couler: Unified Machine Learning Workflow Optimization in Cloud [6.769259207650922]
Coulerは、クラウドにおけるMLワークフローの統一最適化のために設計されたシステムである。
大規模言語モデル(LLM)をワークフロー生成に統合し、さまざまなワークフローエンジンに統一されたプログラミングインターフェースを提供する。
Couerは、CPU/メモリ使用率を15%以上改善し、ワークフロー完了率を約17%向上させた。
論文 参考訳(メタデータ) (2024-03-12T12:47:32Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。