論文の概要: WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance
- arxiv url: http://arxiv.org/abs/2511.12997v1
- Date: Mon, 17 Nov 2025 05:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.69145
- Title: WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance
- Title(参考訳): WebCoach: クロスセッションメモリガイダンスを備えた自己進化型Webエージェント
- Authors: Genglin Liu, Shijie Geng, Sha Li, Hejie Cui, Sarah Zhang, Xin Liu, Tianyi Liu,
- Abstract要約: WebCoachはモデルに依存しない自己進化フレームワークで、Webブラウジングエージェントに永続的なクロスセッションメモリを提供する。
WebCoachは、新しいナビゲーショントラジェクトリから連続的にエピソードメモリをキュレートすることで、自己進化を実現する。
WebVoyagerベンチマークの評価は、WebCoachがブラウザ使用エージェントのパフォーマンスを一貫して改善していることを示している。
- 参考スコア(独自算出の注目度): 29.57207599604568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal LLM-powered agents have recently demonstrated impressive capabilities in web navigation, enabling agents to complete complex browsing tasks across diverse domains. However, current agents struggle with repetitive errors and lack the ability to learn from past experiences across sessions, limiting their long-term robustness and sample efficiency. We introduce WebCoach, a model-agnostic self-evolving framework that equips web browsing agents with persistent cross-session memory, enabling improved long-term planning, reflection, and continual learning without retraining. WebCoach consists of three key components: (1) a WebCondenser, which standardizes raw navigation logs into concise summaries; (2) an External Memory Store, which organizes complete trajectories as episodic experiences; and (3) a Coach, which retrieves relevant experiences based on similarity and recency, and decides whether to inject task-specific advice into the agent via runtime hooks. This design empowers web agents to access long-term memory beyond their native context window, improving robustness in complex browsing tasks. Moreover, WebCoach achieves self-evolution by continuously curating episodic memory from new navigation trajectories, enabling agents to improve over time without retraining. Evaluations on the WebVoyager benchmark demonstrate that WebCoach consistently improves the performance of browser-use agents across three different LLM backbones. With a 38B model, it increases task success rates from 47% to 61% while reducing or maintaining the average number of steps. Notably, smaller base models with WebCoach achieve performance comparable to the same web agent using GPT-4o.
- Abstract(参考訳): マルチモーダル LLM を利用したエージェントは、様々なドメインにわたる複雑なブラウジングタスクを完了させることができる。
しかし、現在のエージェントは繰り返しエラーに悩まされており、セッション間で過去の経験から学ぶ能力が欠如しているため、長期的な堅牢性とサンプル効率が制限されている。
WebCoachは,Webブラウジングエージェントに永続的なクロスセッションメモリを装備し,長期計画やリフレクション,継続的な学習を再トレーニングせずに実現する,モデルに依存しない自己進化型フレームワークである。
WebCoachは、(1)生のナビゲーションログを簡潔な要約に標準化するWebCondenser、(2)完全なトラジェクトリをエピソジックなエクスペリエンスとして整理するExternal Memory Store、(3)類似性と正確性に基づいて関連するエクスペリエンスを検索するCoach、そして、実行時フックを介してタスク固有のアドバイスをエージェントに注入するかどうかを決定するCoachという3つの重要なコンポーネントから構成される。
この設計により、Webエージェントは、ネイティブなコンテキストウィンドウを超えて長期記憶にアクセスでき、複雑なブラウジングタスクの堅牢性を向上させることができる。
さらに、WebCoachは、新しいナビゲーショントラジェクトリからエピソードメモリを継続的にキュレートすることで、自己進化を実現し、エージェントは再トレーニングせずに時間とともに改善できる。
WebVoyagerベンチマークの評価によると、WebCoachは3つの異なるLCMバックボーンにわたるブラウザ使用エージェントのパフォーマンスを一貫して改善している。
38Bモデルでは、平均ステップ数を減らしたり維持したりしながら、タスクの成功率を47%から61%に向上させる。
特に、WebCoachを使った小さなベースモデルは、GPT-4oを使用して同じWebエージェントに匹敵するパフォーマンスを実現している。
関連論文リスト
- TimeWarp: Evaluating Web Agents by Revisiting the Past [7.017865728670461]
当社では,UIや設計,レイアウトなどさまざまなコンテナ環境を使用して,Webの進化をエミュレートするベンチマークであるTimeWarpを紹介した。
実験の結果,Webエージェントによる変更に対する脆弱性と,シングルバージョン軌道上での行動クローニング(BC)の限界が明らかになった。
提案するTimeTrajは,複数バージョンにわたるトラジェクトリの収集に計画蒸留を用いる,シンプルで効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2026-03-05T08:43:06Z) - See and Remember: A Multimodal Agent for Web Traversal [19.326814654711296]
V-GEMSは、Webナビゲーションのための堅牢なマルチモーダルエージェントアーキテクチャである。
エージェントは視覚的グラウンド処理を統合し、あいまいな対話的要素を解決し、状態追跡を伴う明示的なメモリスタックを導入する。
実験の結果、V-GEMSはWebWalkerベースラインを著しく上回り、28.7%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2026-03-03T05:55:05Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory [69.49061918994882]
Branch-and-Browseは構造化推論処理、コンテキスト記憶、効率的な実行を統一する、きめ細かいWebエージェントフレームワークである。
WebArenaベンチマークでは、Branch-and-Browseはタスク成功率35.8%を達成し、最先端の手法と比較して実行時間を最大40.4%削減している。
論文 参考訳(メタデータ) (2025-10-18T00:45:37Z) - WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks [31.201406205897143]
WebChoreArenaは、532の精査されたタスクからなる、完全に再現可能な新しいベンチマークである。
WebChoreArenaは、完全に再現可能で広く採用されている4つのWebArenaシミュレーション環境の上に構築されている。
WebChoreArena で LLM が進化するにつれて, 性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-06-02T17:59:45Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning [36.47273215142354]
WebAgent-R1は、Webエージェントをトレーニングするためのエンドツーエンドのマルチターン強化学習フレームワークである。
WebArena-Liteベンチマークの実験は、WebAgent-R1の有効性を示し、Qwen-2.5-3Bのタスク成功率を6.1%から33.9%に向上させた。
In-depth Analysis revealed the effect of the thinking-based prompting strategy and test-time scaling through increase interaction for web task。
論文 参考訳(メタデータ) (2025-05-22T09:07:43Z) - WebRollback: Enhancing Web Agents with Explicit Rollback Mechanisms [52.942566473658054]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。