論文の概要: AutoSurfer -- Teaching Web Agents through Comprehensive Surfing, Learning, and Modeling
- arxiv url: http://arxiv.org/abs/2604.27253v1
- Date: Wed, 29 Apr 2026 22:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.834493
- Title: AutoSurfer -- Teaching Web Agents through Comprehensive Surfing, Learning, and Modeling
- Title(参考訳): AutoSurfer - 総合的なサーフィン、学習、モデリングを通じてWebエージェントを教える
- Authors: Fazle Elahi Faisal, Qianhui Wu, Baolin Peng, Jianfeng Gao,
- Abstract要約: AutoSurferは,3つの重要なイノベーションを通じて制限に対処する,包括的なWebトラジェクタである。
まずAutoSurferは、発見されたページとアクショントレースのキューを維持する、系統的な幅優先探索戦略を採用している。
第2に、AutoSurferは探索軌道を利用してタスク合成を誘導し、実際のナビゲーションパスに複雑なタスクを接地することで幻覚を減らす。
第3に、AutoSurferは、より正確で信頼性の高い軌道修正に向けてWebエージェントを操るヒントとして、同じ探索軌道を使用する。
- 参考スコア(独自算出の注目度): 44.65915050312771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (LLMs) have revolutionized web agents that can automate complex tasks on websites. However, their accuracy remains limited by the scarcity of high-quality web trajectory training data. Existing automatic trajectory generation methods suffer from incomplete website coverage due to homepage-based task proposals or random-walk exploration. Such methods often result in hallucinated or ambiguous task synthesis that lead to incomplete and unreliable trajectory generation. Here, we present AutoSurfer, a comprehensive web trajectory generator that addresses these limitations through three key innovations. First, AutoSurfer employs a systematic breadth-first exploration strategy that maintains a queue of discovered pages and action traces, propagates knowledge across pages to avoid redundant exploration, and recursively expands multi-level graphical user interface elements - closely resembling how a human would learn a new website. Second, AutoSurfer leverages the exploration trajectory to guide task synthesis, reducing hallucinations by grounding complex tasks in actual navigation paths rather than isolated actions or page content alone. Third, AutoSurfer uses the same exploration trajectory as hints to steer a web agent toward more accurate and reliable trajectory refinement. Together, these innovations enable AutoSurfer to comprehensively cover a website's action space and generate data suitable for training website-specific LLMs. We evaluate AutoSurfer on the WebArena benchmark by fine-tuning Qwen2.5-VL-7B-Instruct and demonstrate that it outperforms state-of-the-art methods - Explorer, OS-Genesis, and SynthAgent - achieving up to 24.23% overall task completion accuracy compared to 19.59% for the best prior method. Further, task diversity analysis demonstrates that AutoSurfer yields a more diverse distribution of synthesized tasks.
- Abstract(参考訳): マルチモーダル大規模言語モデル(LLM)の最近の進歩は、ウェブサイト上の複雑なタスクを自動化できるWebエージェントに革命をもたらした。
しかし、その精度は、高品質なWeb軌道訓練データの不足によって制限されている。
既存の自動軌道生成手法は、ホームページベースのタスク提案やランダムウォーク探索による不完全なWebサイトカバレッジに悩まされている。
このような方法は、しばしば幻覚的または曖昧なタスク合成をもたらし、不完全で信頼性の低い軌道生成につながる。
本稿では、3つの重要なイノベーションを通じてこれらの制限に対処する包括的WebトラジェクタであるAutoSurferを紹介する。
まずAutoSurferは、発見されたページとアクショントレースのキューを維持し、冗長な探索を避けるためにページ間の知識を伝播し、複数のレベルのグラフィカルユーザインターフェース要素を再帰的に拡張する、体系的な幅優先探索戦略を採用している。
第2に、AutoSurferは探索軌道を利用してタスク合成をガイドし、独立したアクションやページコンテンツではなく、実際のナビゲーションパスに複雑なタスクを接地することで幻覚を減らす。
第3に、AutoSurferは、より正確で信頼性の高い軌道修正に向けてWebエージェントを操るヒントとして、同じ探索軌道を使用する。
これらのイノベーションにより、AutoSurferはWebサイトのアクションスペースを包括的にカバーし、Webサイト固有のLLMのトレーニングに適したデータを生成することができる。
Instructing Qwen2.5-VL-7B-Instructing Qwen2.5-VL-7B-InstructによりWebArenaベンチマーク上でAutoSurferの評価を行い、最新手法であるエクスプローラー、OS-Genesis、SynthAgentよりも優れた性能を示し、最も優れた先行手法と比較して24.23%のタスク完了精度を実現した。
さらに、タスクの多様性分析は、AutoSurferがより多様な合成タスクの分布をもたらすことを示す。
関連論文リスト
- Scaling Synthetic Task Generation for Agents via Exploration [67.70129766322985]
対話型エージェントを構築するための訓練後のマルチモーダル大言語モデル(MLLM)は、コンピュータ利用、Webナビゲーション、ロボット工学といった分野にまたがる約束を守る。
タスク生成のための既存のアプローチは、ダウンストリーム環境情報に制限のある人間のアノテーションやMLLMのプロンプトに大きく依存している。
本稿では,タスク生成のためのスケーラブルなパイプラインであるAutoPlayについて紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:00:02Z) - WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-03T12:59:07Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。
人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。
次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Robot path planning using deep reinforcement learning [0.0]
強化学習法は、地図のないナビゲーションタスクに代わる手段を提供する。
障害物回避と目標指向ナビゲーションタスクの両方に深部強化学習エージェントを実装した。
報酬関数の変更によるエージェントの挙動と性能の変化を解析する。
論文 参考訳(メタデータ) (2023-02-17T20:08:59Z) - Adversarial Environment Generation for Learning to Navigate the Web [107.99759923626242]
Webナビゲーションエージェントのトレーニングのボトルネックの1つは、トレーニング環境の学習可能なカリキュラムを提供することです。
AEG(Adversarial Environment Generation)を使用して、強化学習(RL)エージェントを訓練する困難なWeb環境を生成することを提案する。
提案するフレキシブルb-PAIRED技術を用いて訓練したナビゲータエージェントは,競争力のある自動カリキュラム生成ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-03-02T19:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。