Fugu-MT 論文翻訳(概要): Agent Workflow Memory

論文の概要: Agent Workflow Memory

arxiv url: http://arxiv.org/abs/2409.07429v1
Date: Wed, 11 Sep 2024 17:21:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 13:26:57.786899
Title: Agent Workflow Memory
Title（参考訳）: エージェントワークフローメモリ
Authors: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig,
Abstract要約: 本稿では、一般的に再利用されるルーチンを誘導するAgent Memoryを紹介する。 AWMはベースラインの結果を24.6%、相対的な成功率51.1%で大幅に改善する。オンラインAWMは、クロスタスク、ウェブサイト、ドメイン評価を強力に一般化する。
参考スコア（独自算出の注目度）: 71.81385627556398
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite the potential of language model-based agents to solve real-world tasks such as web navigation, current methods still struggle with long-horizon tasks with complex action trajectories. In contrast, humans can flexibly solve complex tasks by learning reusable task workflows from past experiences and using them to guide future actions. To build agents that can similarly benefit from this process, we introduce Agent Workflow Memory (AWM), a method for inducing commonly reused routines, i.e., workflows, and selectively providing workflows to the agent to guide subsequent generations. AWM flexibly applies to both offline and online scenarios, where agents induce workflows from training examples beforehand or from test queries on the fly. We experiment on two major web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover 1000+ tasks from 200+ domains across travel, shopping, and social media, among others. AWM substantially improves the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while reducing the number of steps taken to solve WebArena tasks successfully. Furthermore, online AWM robustly generalizes in cross-task, website, and domain evaluations, surpassing baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps widen.
Abstract（参考訳）: 言語モデルに基づくエージェントがWebナビゲーションのような現実世界のタスクを解く可能性にもかかわらず、現在の手法は複雑な行動軌跡を持つ長い水平タスクに苦戦している。対照的に、人間は過去の経験から再利用可能なタスクワークフローを学び、それらを将来の行動を導くことで、複雑なタスクを柔軟に解決することができる。このプロセスのメリットを享受できるエージェントを構築するために、AWM(Agent Workflow Memory)を紹介します。 AWMはオフラインとオンラインの両方のシナリオに柔軟に適用され、エージェントは事前にトレーニング例やテストクエリからワークフローを誘導する。私たちはMind2WebとWebArenaという2つの主要なWebナビゲーションベンチマークを実験しました。 AWMは、Mind2WebとWebArenaの相対的な成功率を24.6%、51.1%向上させ、WebArenaのタスクをうまく解くためのステップの数を削減した。さらに、オンラインのAWMはクロスタスク、Webサイト、ドメイン評価を強力に一般化し、8.9から14.0の絶対点を超えた。

関連論文リスト

Learning to Compose for Cross-domain Agentic Workflow Generation [56.630382886594184]
クロスドメインワークフロー生成のためのオープンソースのLLMを作成します。さまざまなドメインにわたる再利用可能なワークフロー機能のコンパクトなセットを学びます。当社の1パスジェネレータは、20イテレーションを消費するSOTAリファインメントベースラインを超えています。
論文参考訳（メタデータ） (2026-02-11T18:27:22Z)
OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks [36.99798674847767]
ロングホライズンで反復的なタスクは、プロフェッショナルな設定で一般的である。これらのタスクは、処理するデータのサイズに比例して極端な長さまで拡張できるため、人間にとって退屈な作業であることが多い。我々は2つのドメインにまたがる242の長期的反復的なタスクからなるOS-Marathonを構築し、SOTA(State-of-the-art)エージェントを評価する。
論文参考訳（メタデータ） (2026-01-28T14:35:23Z)
Beyond Rule-Based Workflows: An Information-Flow-Orchestrated Multi-Agents Paradigm via Agent-to-Agent Communication from CORAL [0.15199492741752027]
本稿ではエージェント・ツー・エージェント(A2A)通信を用いた情報フロー型マルチエージェントパラダイムを提案する。汎用ベンチマークGAIAに対する我々のアプローチを,代表的ワークフローベースMASをベースラインとして評価した。本手法は63.64%の精度を達成し, OWL の55.15% を8.49 % に上回り, トークン消費に匹敵する性能を示した。
論文参考訳（メタデータ） (2026-01-14T21:35:51Z)
Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文参考訳（メタデータ） (2025-05-29T07:24:37Z)
WorkForceAgent-R1: Incentivizing Reasoning Capability in LLM-based Web Agents via Reinforcement Learning [31.455378036113228]
ルールベースのR1スタイル強化学習フレームワークを用いて学習したLLMベースのWebエージェントであるWorkForceAgent-R1を紹介する。我々は、出力形式への固執とアクションの正当性の両方を評価する構造付き報酬関数を用いて、WorkForceAgent-R1が頑健な中間推論を暗黙的に学習できるようにする。 WorkArenaベンチマークの実験では、WorkForceAgent-R1はSFTのベースラインを10.26-16.59%上回っている。
論文参考訳（メタデータ） (2025-05-28T23:45:28Z)
WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning [37.89715280583421]
WebAgent-R1は、Webエージェントをトレーニングするためのエンドツーエンドのマルチターン強化学習フレームワークである。 WebArena-Liteベンチマークの実験は、WebAgent-R1の有効性を示し、Qwen-2.5-3Bのタスク成功率を6.1%から33.9%に向上させた。 In-depth Analysis revealed the effect of the thinking-based prompting strategy and test-time scaling through increase interaction for web task。
論文参考訳（メタデータ） (2025-05-22T09:07:43Z)
Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文参考訳（メタデータ） (2025-01-14T04:35:37Z)
Residual Multi-Task Learner for Applied Ranking [11.774841918446137]
ResFlowは、効率的なクロスタスク情報共有を可能にする軽量なマルチタスク学習フレームワークである。 Shopee Searchのプレランクモジュールに完全にデプロイされている。
論文参考訳（メタデータ） (2024-10-30T06:49:45Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。我々は、LLMベースのフレームワークであるGenAgentを紹介した。その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
Couler: Unified Machine Learning Workflow Optimization in Cloud [6.769259207650922]
Coulerは、クラウドにおけるMLワークフローの統一最適化のために設計されたシステムである。大規模言語モデル(LLM)をワークフロー生成に統合し、さまざまなワークフローエンジンに統一されたプログラミングインターフェースを提供する。 Couerは、CPU/メモリ使用率を15%以上改善し、ワークフロー完了率を約17%向上させた。
論文参考訳（メタデータ） (2024-03-12T12:47:32Z)
WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (2023-07-25T22:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。