論文の概要: WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
- arxiv url: http://arxiv.org/abs/2509.06501v1
- Date: Mon, 08 Sep 2025 10:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.053028
- Title: WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
- Title(参考訳): WebExplorer: 長距離Webエージェントのトレーニングのための探索と開発
- Authors: Junteng Liu, Yunji Li, Chi Zhang, Jingyang Li, Aili Chen, Ke Ji, Weiyu Cheng, Zijia Wu, Chengyu Du, Qidi Xu, Jiayuan Song, Zhengmao Zhu, Wenhu Chen, Pengyu Zhao, Junxian He,
- Abstract要約: 本稿では,モデルに基づく探索と反復的,長短のクエリ進化を用いた体系的データ生成手法であるWebExplorerを紹介する。
我々のモデルは、128Kのコンテキスト長と最大100のツール呼び出しスイッチをサポートし、長期の問題解決を可能にします。
8Bサイズのモデルとして、WebExplorer-8Bは、RLトレーニング後の平均16ターンを効果的に探索することができる。
- 参考スコア(独自算出の注目度): 57.203515352080295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paradigm of Large Language Models (LLMs) has increasingly shifted toward agentic applications, where web browsing capabilities are fundamental for retrieving information from diverse online sources. However, existing open-source web agents either demonstrate limited information-seeking abilities on complex tasks or lack transparent implementations. In this work, we identify that the key challenge lies in the scarcity of challenging data for information seeking. To address this limitation, we introduce WebExplorer: a systematic data generation approach using model-based exploration and iterative, long-to-short query evolution. This method creates challenging query-answer pairs that require multi-step reasoning and complex web navigation. By leveraging our curated high-quality dataset, we successfully develop advanced web agent WebExplorer-8B through supervised fine-tuning followed by reinforcement learning. Our model supports 128K context length and up to 100 tool calling turns, enabling long-horizon problem solving. Across diverse information-seeking benchmarks, WebExplorer-8B achieves the state-of-the-art performance at its scale. Notably, as an 8B-sized model, WebExplorer-8B is able to effectively search over an average of 16 turns after RL training, achieving higher accuracy than WebSailor-72B on BrowseComp-en/zh and attaining the best performance among models up to 100B parameters on WebWalkerQA and FRAMES. Beyond these information-seeking tasks, our model also achieves strong generalization on the HLE benchmark even though it is only trained on knowledge-intensive QA data. These results highlight our approach as a practical path toward long-horizon web agents.
- Abstract(参考訳): 大規模言語モデル(LLM)のパラダイムは、さまざまなオンラインソースから情報を取得するのにWebブラウジング機能が不可欠であるエージェントアプリケーションへと移行してきている。
しかし、既存のオープンソースWebエージェントは、複雑なタスクにおいて限られた情報検索能力を示すか、透過的な実装を欠いているかのどちらかである。
この研究において、重要な課題は、情報検索に挑戦するデータの不足にあると認識している。
この制限に対処するために、モデルベースの探索と反復的な長短クエリ進化を用いた体系的なデータ生成アプローチであるWebExplorerを紹介します。
この手法は,複数ステップの推論と複雑なWebナビゲーションを必要とする問合せと問合せのペアを生成する。
キュレートした高品質なデータセットを活用することで、教師付き微調整と強化学習により高度なWebエージェントWebExplorer-8Bの開発に成功した。
我々のモデルは、128Kのコンテキスト長と最大100のツール呼び出しスイッチをサポートし、長期の問題解決を可能にします。
さまざまな情報検索ベンチマークを通じて、WebExplorer-8Bはその規模で最先端のパフォーマンスを達成する。
特に8Bサイズのモデルとして、WebExplorer-8Bは、RLトレーニング後の平均16ターンを効果的に検索することができ、BrowseComp-en/zhのWebSailor-72Bよりも精度が高く、WebWalkerQAとFRAMESの100Bパラメータで最高のパフォーマンスが得られる。
これらの情報探索タスク以外にも、知識集約型QAデータでのみ訓練されているにもかかわらず、我々のモデルはHLEベンチマークの強力な一般化も達成している。
これらの結果は,長軸ウェブエージェントへの実践的な道筋として,我々のアプローチを浮き彫りにしている。
関連論文リスト
- WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent [68.3311163530321]
Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。
このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。
本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
論文 参考訳(メタデータ) (2025-08-07T18:03:50Z) - WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-03T12:59:07Z) - Pangu DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning [79.26661332815465]
情報検索は反復的証拠収集と反省的推論を要求するが、大きな言語モデル(LLM)は、オープンウェブの質問に答えることに苦慮している。
既存の手法は静的なプロンプトルールやウィキペディアベースのコーパスと検索環境によるトレーニングに依存している。
オープンワールドのインターネット環境における情報探索行動を促進するために設計された最初のデータセットであるWebPuzzleを紹介する。
論文 参考訳(メタデータ) (2025-05-30T08:15:39Z) - Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents [16.161877699225986]
我々は,これまでで最大かつ最も多様な軌跡レベルのデータセットを合成するスケーラブルなレシピを開発した。
このデータセットには、49KのユニークなURL、720Kのスクリーンショット、3300万のWeb要素を含む、94K以上の成功したマルチモーダルWebトラジェクトリが含まれている。
我々は、Mind2Web-Live、Multimodal-Mind2Web、MiniWob++のようなオフラインおよびオンライン両方のWebエージェントベンチマークで強力なパフォーマンスを示します。
論文 参考訳(メタデータ) (2025-02-17T02:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。