論文の概要: DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning
- arxiv url: http://arxiv.org/abs/2605.23939v1
- Date: Tue, 28 Apr 2026 11:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.95692
- Title: DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning
- Title(参考訳): DRIVE:連続学習におけるWebエージェントの推論・インタラクションレベルにおけるスキルのモデル化
- Authors: Xirui Liu, Sihang Zhou, Yanning Hou, Rong Zhou, Haoyuan Chen, Maolin He, Siwei Wang, Hao Chen, Jian Huang,
- Abstract要約: Webエージェントは、異なるタスクを実行するために、ハイレベル推論と低レベルインタラクションの両方を必要とします。
本稿では、歴史的経験を自然言語推論スキルに分割する二段階スキルモデリングフレームワークDRIVEを提案する。
実験によると、DRIVEのタスク成功率は52.8%で、スキルフリーのベースラインを7.3%上回っている。
- 参考スコア(独自算出の注目度): 17.92660876001036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web agents require both high-level reasoning (for task decomposition) and low-level interactions (for page elements manipulation) to conduct different tasks. However, these knowledge types differ fundamentally: reasoning knowledge (e.g., booking a flight requires first searching for routes) is abstract and transferable across websites, while interaction knowledge (e.g., clicking the Search button at a specific coordinate on Site A) depends heavily on page-specific contexts. Existing methods store experiences uniformly. This creates a dilemma: abstract representations lose executability on concrete pages, while concrete representations fail to generalize across domains. This entanglement limits capability accumulation: on new websites, agents either fail to recognize reusable task logic due to surface-level differences or attempt infeasible actions from outdated page structures. To disentangle them, we propose DRIVE, a dual-level skill modeling framework separating historical experience into natural language reasoning skills, which capture transferable task logic, and programmatic interaction skills, grounding abstract actions to executable operations. A scene-aware coordination mechanism adaptively retrieves and invokes these dual-level skills based on task semantics. DRIVE also uses skill-level reflection to identify hierarchy-specific failure modes, enabling targeted skill library expansion and refinement. Experiments across five WebArena domains show DRIVE attains an average task success rate of 52.8%, exceeding the skill-free baseline by 7.3 percentage points. Further ablations show reasoning and interaction skills provide distinct, complementary benefits, supporting separation of transferable task logic from executable page-level operations.
- Abstract(参考訳): Webエージェントは、異なるタスクを実行するために、高レベルの推論(タスク分解)と低レベルの相互作用(ページ要素操作)の両方を必要とします。
しかし、これらの知識タイプは基本的に異なる: 推論知識(例えば、フライトの予約にはルートを最初に検索する必要がある)は抽象的で、ウェブサイト間で転送可能である一方、インタラクション知識(例えば、サイトAの特定の座標で検索ボタンをクリックする)は、ページ固有のコンテキストに大きく依存する。
既存のメソッドはエクスペリエンスを均一に保存する。
抽象表現は具体的なページで実行可能性を失うが、具体的な表現はドメインをまたいだ一般化に失敗する。
新しいウェブサイトでは、エージェントは表面レベルでの違いのために再利用可能なタスクロジックを認識できないか、時代遅れのページ構造から実現不可能なアクションを試みます。
DRIVEは、過去の経験を自然言語推論スキルに分離し、伝達可能なタスクロジックとプログラム間相互作用スキルをキャプチャし、抽象的なアクションを実行可能操作に基盤付ける。
シーン認識調整機構は、タスクセマンティクスに基づいて、これらのデュアルレベルスキルを適応的に検索し、呼び出す。
DRIVEはまた、スキルレベルのリフレクションを使用して階層固有の障害モードを特定し、ターゲットとするスキルライブラリの拡張と改善を可能にしている。
5つのWebArenaドメインでの実験では、DRIVEのタスク成功率は52.8%で、スキルフリーのベースラインを7.3%上回っている。
さらに、推論と相互作用のスキルは、実行可能ページレベルの操作から転送可能なタスクロジックを分離することをサポートする、相補的な利点を提供する。
関連論文リスト
- Decompose and Recompose: Reasoning New Skills from Existing Abilities for Cross-Task Robotic Manipulation [45.91196295385836]
クロスタスクの一般化は、オープンソースのロボット操作における中核的な課題である。
中間表現としてアトミックなスキルアクションペアを用いたスキル推論フレームワークであるDecomposeとRecomposeを提案する。
われわれのアプローチでは、実演を解釈可能なスキル-アクションアライメントに分解し、モデルが見えないタスクのためにこれらのスキルを再構成できるようにする。
論文 参考訳(メタデータ) (2026-05-02T13:55:28Z) - WebXSkill: Skill Learning for Autonomous Web Agents [104.76374637691212]
WebXSkillは、コードベースのスキルと自然言語ガイダンスのギャップを埋めるフレームワークである。
WebArenaとWebVoyagerでは、WebXSkillはタスク成功率をベースラインで最大9.8と12.9ポイント改善する。
論文 参考訳(メタデータ) (2026-04-14T21:48:15Z) - SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。
本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文 参考訳(メタデータ) (2024-12-07T06:12:53Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。