論文の概要: WebXSkill: Skill Learning for Autonomous Web Agents
- arxiv url: http://arxiv.org/abs/2604.13318v1
- Date: Tue, 14 Apr 2026 21:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.311879
- Title: WebXSkill: Skill Learning for Autonomous Web Agents
- Title(参考訳): WebXSkill: 自律的なWebエージェントのためのスキル学習
- Authors: Zhaoyang Wang, Qianhui Wu, Xuchao Zhang, Chaoyun Zhang, Wenlin Yao, Fazle Elahi Faisal, Baolin Peng, Si Qin, Suman Nath, Qingwei Lin, Chetan Bansal, Dongmei Zhang, Saravan Rajmohan, Jianfeng Gao, Huaxiu Yao,
- Abstract要約: WebXSkillは、コードベースのスキルと自然言語ガイダンスのギャップを埋めるフレームワークである。
WebArenaとWebVoyagerでは、WebXSkillはタスク成功率をベースラインで最大9.8と12.9ポイント改善する。
- 参考スコア(独自算出の注目度): 104.76374637691212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous web agents powered by large language models (LLMs) have shown promise in completing complex browser tasks, yet they still struggle with long-horizon workflows. A key bottleneck is the grounding gap in existing skill formulations: textual workflow skills provide natural language guidance but cannot be directly executed, while code-based skills are executable but opaque to the agent, offering no step-level understanding for error recovery or adaptation. We introduce WebXSkill, a framework that bridges this gap with executable skills, each pairing a parameterized action program with step-level natural language guidance, enabling both direct execution and agent-driven adaptation. WebXSkill operates in three stages: skill extraction mines reusable action subsequences from readily available synthetic agent trajectories and abstracts them into parameterized skills, skill organization indexes skills into a URL-based graph for context-aware retrieval, and skill deployment exposes two complementary modes, grounded mode for fully automated multi-step execution and guided mode where skills serve as step-by-step instructions that the agent follows with its native planning. On WebArena and WebVoyager, WebXSkill improves task success rate by up to 9.8 and 12.9 points over the baseline, respectively, demonstrating the effectiveness of executable skills for web agents. The code is publicly available at https://github.com/aiming-lab/WebXSkill.
- Abstract(参考訳): 大きな言語モデル(LLM)をベースとした自律的なWebエージェントは、複雑なブラウザタスクの完了を約束している。
テキストワークフロースキルは自然言語のガイダンスを提供するが、直接実行することはできない。一方、コードベースのスキルは実行可能だがエージェントには不透明であり、エラー回復や適応のためのステップレベルの理解を提供しない。
本稿では,このギャップを実行可能なスキルで埋めるフレームワークであるWebXSkillを紹介する。
WebXSkillは3つの段階で動作している: スキル抽出機は、容易に利用可能な合成エージェントのトラジェクトリから再利用可能なアクションサブシーケンスをパラメータ化されたスキルに抽象化し、スキル組織は、コンテキスト認識検索のためのURLベースのグラフにスキルをインデックスし、スキル展開は、2つの補完的なモード、完全に自動化されたマルチステップ実行のためのグラウンドドモードと、エージェントがネイティブプランで従うステップバイステップの指示として機能するガイドモードを公開する。
WebArenaとWebVoyagerでは、WebXSkillは、それぞれベースライン上の最大9.8ポイントと12.9ポイントのタスク成功率を改善し、Webエージェントの実行可能なスキルの有効性を実証している。
コードはhttps://github.com/aiming-lab/WebXSkill.comで公開されている。
関連論文リスト
- SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。
本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。
我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文 参考訳(メタデータ) (2026-02-24T13:11:38Z) - PolySkill: Learning Generalizable Skills Through Polymorphic Abstraction [20.687269802717893]
新しいフレームワークであるPolySkillを導入し、エージェントが一般化可能な構成スキルを学習できるようにする。
実験の結果,本手法はWebサイトにおけるスキルの再利用を1.7倍に改善することがわかった。
エージェントが自身の目標を特定して洗練させることで、PolySkillはエージェントのより良いカリキュラムを学ぶ能力を高める。
論文 参考訳(メタデータ) (2025-10-17T17:56:00Z) - Inducing Programmatic Skills for Agentic Tasks [69.29902147942673]
本研究では,エージェントがプログラムベースのスキルをその場で誘導し,検証し,活用することで,エージェントの適応を可能にするエージェントスキル誘導(ASI)を提案する。
ASIは静的ベースラインエージェントとテキストスキルを23.5%、成功率11.3%で上回っている。
論文 参考訳(メタデータ) (2025-04-09T12:25:37Z) - Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。
我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。
本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文 参考訳(メタデータ) (2024-09-23T18:06:32Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。