論文の概要: Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval
- arxiv url: http://arxiv.org/abs/2606.04391v1
- Date: Wed, 03 Jun 2026 03:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.505264
- Title: Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval
- Title(参考訳): 動的検索によるWebエージェントのオンラインスキル学習
- Authors: Jiaxi Li, Ke Deng, Yun Wang, Jingyuan Huang, Yucheng Shi, Qiaoyu Tan, Jin Lu, Ninghao Liu,
- Abstract要約: State-Grounded Dynamic Retrieval (SGDR)は、Webエージェントの段階的なスキル再利用を可能にするオンラインスキル学習手法である。
SGDRは3つのコンポーネントから構成される: 完了したトラジェクトリを中間実行状態で実行不可能な再利用可能なサブプロデューサに変換するスライディングウィンドウ抽出プロセス、スキル検索と実行可能なアクションを接続するデュアルテキストコード表現、タスクゴールと現在のWebページ状態の両方にスキルにマッチするステートグラウンド動的検索機構。
- 参考スコア(独自算出の注目度): 41.11944743292013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language agents increasingly rely on reusable skills to improve multi-step web automation across related tasks. A growing line of work studies online skill learning, where agents continually induce skills from previous task trajectories and reuse them in future tasks on the fly. However, existing methods mainly reuse skills at the task-level: a fixed set of skills is retrieved based on the initial task instruction and then held fixed throughout execution. This static strategy is misaligned with web execution, where the appropriate next action depends not only on the task goal but also on the current webpage state, which often transitions into situations that the initial skills fail to cover. To address this gap, we propose State-Grounded Dynamic Retrieval (SGDR), an online skill learning method that enables stepwise skill reuse for web agents. SGDR consists of three components: a sliding-window extraction process that turns completed trajectories into reusable sub-procedures invokable at intermediate execution states, a dual text-code representation that connects skill retrieval with executable action, and a state-grounded dynamic retrieval mechanism that matches skills to both the task goal and the current webpage state. Experiments on WebArena across five domains show that SGDR consistently outperforms strong baselines, achieving average success rates of 37.5% with GPT-4.1 and 24.3% with Qwen3-4B, corresponding to relative gains of 10.6% and 10.0% over the strongest baseline, respectively. The code is available at https://github.com/plusnli/skill-dynamic-retrieval.
- Abstract(参考訳): 言語エージェントは、関連するタスクの多段階Web自動化を改善するために、再利用可能なスキルに依存している。
オンラインスキル学習では、エージェントが以前のタスク軌跡から継続的にスキルを誘導し、それを将来的なタスクで再利用する。
しかし、既存の手法は主にタスクレベルでのスキルの再利用であり、初期タスク命令に基づいて一定のスキルセットが検索され、実行中に固定される。
この静的戦略は、タスクのゴールだけでなく、現在のWebページの状態にも依存する。
このギャップに対処するために,Webエージェントの段階的スキル再利用を可能にするオンラインスキル学習手法であるState-Grounded Dynamic Retrieval (SGDR)を提案する。
SGDRは3つのコンポーネントから構成される: 完了したトラジェクトリを中間実行状態で実行不可能な再利用可能なサブプロデューサに変換するスライディングウィンドウ抽出プロセス、スキル検索と実行可能なアクションを接続するデュアルテキストコード表現、タスクゴールと現在のWebページ状態の両方にスキルにマッチするステートグラウンド動的検索機構。
5つの領域にわたるWebArenaの実験では、SGDRはGPT-4.1で37.5%、Qwen3-4Bで24.3%、それぞれ最強のベースラインで10.6%と10.0%と、一貫して高いベースラインを上回っている。
コードはhttps://github.com/plusnli/skill-dynamic-retrieval.comで公開されている。
関連論文リスト
- GTA: Generating Long-Horizon Tasks for Web Agents at Scale [82.43869456830664]
我々は、クローリング、検索ベースのシード、コンテキスト内生成、自動品質管理を統合したスケーラブルなフレームワーク、GTAを導入する。
eコマース、政府、フォーラム、ニュースをカバーする50以上のウェブサイトでパイプラインをインスタンス化し、マルチリンガルとマルチホップをカバーしています。
i) マルチホップWebエージェントタスク生成の形式化、(ii) 自動データ生成のための効率的で検証されたパイプラインの提案、(iii) 再現可能な評価を伴う動的ベンチマークのリリースである。
論文 参考訳(メタデータ) (2026-05-28T01:05:50Z) - WebXSkill: Skill Learning for Autonomous Web Agents [104.76374637691212]
WebXSkillは、コードベースのスキルと自然言語ガイダンスのギャップを埋めるフレームワークである。
WebArenaとWebVoyagerでは、WebXSkillはタスク成功率をベースラインで最大9.8と12.9ポイント改善する。
論文 参考訳(メタデータ) (2026-04-14T21:48:15Z) - WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning [36.47273215142354]
WebAgent-R1は、Webエージェントをトレーニングするためのエンドツーエンドのマルチターン強化学習フレームワークである。
WebArena-Liteベンチマークの実験は、WebAgent-R1の有効性を示し、Qwen-2.5-3Bのタスク成功率を6.1%から33.9%に向上させた。
In-depth Analysis revealed the effect of the thinking-based prompting strategy and test-time scaling through increase interaction for web task。
論文 参考訳(メタデータ) (2025-05-22T09:07:43Z) - Inducing Programmatic Skills for Agentic Tasks [69.29902147942673]
本研究では,エージェントがプログラムベースのスキルをその場で誘導し,検証し,活用することで,エージェントの適応を可能にするエージェントスキル誘導(ASI)を提案する。
ASIは静的ベースラインエージェントとテキストスキルを23.5%、成功率11.3%で上回っている。
論文 参考訳(メタデータ) (2025-04-09T12:25:37Z) - Agent Workflow Memory [71.81385627556398]
本稿では、一般的に再利用されるルーチンを誘導するAgent Memoryを紹介する。
AWMはベースラインの結果を24.6%、相対的な成功率51.1%で大幅に改善する。
オンラインAWMは、クロスタスク、ウェブサイト、ドメイン評価を強力に一般化する。
論文 参考訳(メタデータ) (2024-09-11T17:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。