論文の概要: WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance
- arxiv url: http://arxiv.org/abs/2511.12997v1
- Date: Mon, 17 Nov 2025 05:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.69145
- Title: WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance
- Title(参考訳): WebCoach: クロスセッションメモリガイダンスを備えた自己進化型Webエージェント
- Authors: Genglin Liu, Shijie Geng, Sha Li, Hejie Cui, Sarah Zhang, Xin Liu, Tianyi Liu,
- Abstract要約: WebCoachはモデルに依存しない自己進化フレームワークで、Webブラウジングエージェントに永続的なクロスセッションメモリを提供する。
WebCoachは、新しいナビゲーショントラジェクトリから連続的にエピソードメモリをキュレートすることで、自己進化を実現する。
WebVoyagerベンチマークの評価は、WebCoachがブラウザ使用エージェントのパフォーマンスを一貫して改善していることを示している。
- 参考スコア(独自算出の注目度): 29.57207599604568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal LLM-powered agents have recently demonstrated impressive capabilities in web navigation, enabling agents to complete complex browsing tasks across diverse domains. However, current agents struggle with repetitive errors and lack the ability to learn from past experiences across sessions, limiting their long-term robustness and sample efficiency. We introduce WebCoach, a model-agnostic self-evolving framework that equips web browsing agents with persistent cross-session memory, enabling improved long-term planning, reflection, and continual learning without retraining. WebCoach consists of three key components: (1) a WebCondenser, which standardizes raw navigation logs into concise summaries; (2) an External Memory Store, which organizes complete trajectories as episodic experiences; and (3) a Coach, which retrieves relevant experiences based on similarity and recency, and decides whether to inject task-specific advice into the agent via runtime hooks. This design empowers web agents to access long-term memory beyond their native context window, improving robustness in complex browsing tasks. Moreover, WebCoach achieves self-evolution by continuously curating episodic memory from new navigation trajectories, enabling agents to improve over time without retraining. Evaluations on the WebVoyager benchmark demonstrate that WebCoach consistently improves the performance of browser-use agents across three different LLM backbones. With a 38B model, it increases task success rates from 47% to 61% while reducing or maintaining the average number of steps. Notably, smaller base models with WebCoach achieve performance comparable to the same web agent using GPT-4o.
- Abstract(参考訳): マルチモーダル LLM を利用したエージェントは、様々なドメインにわたる複雑なブラウジングタスクを完了させることができる。
しかし、現在のエージェントは繰り返しエラーに悩まされており、セッション間で過去の経験から学ぶ能力が欠如しているため、長期的な堅牢性とサンプル効率が制限されている。
WebCoachは,Webブラウジングエージェントに永続的なクロスセッションメモリを装備し,長期計画やリフレクション,継続的な学習を再トレーニングせずに実現する,モデルに依存しない自己進化型フレームワークである。
WebCoachは、(1)生のナビゲーションログを簡潔な要約に標準化するWebCondenser、(2)完全なトラジェクトリをエピソジックなエクスペリエンスとして整理するExternal Memory Store、(3)類似性と正確性に基づいて関連するエクスペリエンスを検索するCoach、そして、実行時フックを介してタスク固有のアドバイスをエージェントに注入するかどうかを決定するCoachという3つの重要なコンポーネントから構成される。
この設計により、Webエージェントは、ネイティブなコンテキストウィンドウを超えて長期記憶にアクセスでき、複雑なブラウジングタスクの堅牢性を向上させることができる。
さらに、WebCoachは、新しいナビゲーショントラジェクトリからエピソードメモリを継続的にキュレートすることで、自己進化を実現し、エージェントは再トレーニングせずに時間とともに改善できる。
WebVoyagerベンチマークの評価によると、WebCoachは3つの異なるLCMバックボーンにわたるブラウザ使用エージェントのパフォーマンスを一貫して改善している。
38Bモデルでは、平均ステップ数を減らしたり維持したりしながら、タスクの成功率を47%から61%に向上させる。
特に、WebCoachを使った小さなベースモデルは、GPT-4oを使用して同じWebエージェントに匹敵するパフォーマンスを実現している。
関連論文リスト
- Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory [69.49061918994882]
Branch-and-Browseは構造化推論処理、コンテキスト記憶、効率的な実行を統一する、きめ細かいWebエージェントフレームワークである。
WebArenaベンチマークでは、Branch-and-Browseはタスク成功率35.8%を達成し、最先端の手法と比較して実行時間を最大40.4%削減している。
論文 参考訳(メタデータ) (2025-10-18T00:45:37Z) - WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks [31.201406205897143]
WebChoreArenaは、532の精査されたタスクからなる、完全に再現可能な新しいベンチマークである。
WebChoreArenaは、完全に再現可能で広く採用されている4つのWebArenaシミュレーション環境の上に構築されている。
WebChoreArena で LLM が進化するにつれて, 性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-06-02T17:59:45Z) - WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning [36.47273215142354]
WebAgent-R1は、Webエージェントをトレーニングするためのエンドツーエンドのマルチターン強化学習フレームワークである。
WebArena-Liteベンチマークの実験は、WebAgent-R1の有効性を示し、Qwen-2.5-3Bのタスク成功率を6.1%から33.9%に向上させた。
In-depth Analysis revealed the effect of the thinking-based prompting strategy and test-time scaling through increase interaction for web task。
論文 参考訳(メタデータ) (2025-05-22T09:07:43Z) - R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。