論文の概要: WebSailor: Navigating Super-human Reasoning for Web Agent
- arxiv url: http://arxiv.org/abs/2507.02592v1
- Date: Thu, 03 Jul 2025 12:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.285278
- Title: WebSailor: Navigating Super-human Reasoning for Web Agent
- Title(参考訳): WebSailor: Webエージェントのためのスーパーヒューマン推論のナビゲート
- Authors: Kuan Li, Zhongwang Zhang, Huifeng Yin, Liwen Zhang, Litu Ou, Jialong Wu, Wenbiao Yin, Baixuan Li, Zhengwei Tao, Xinyu Wang, Weizhou Shen, Junkai Zhang, Dingchu Zhang, Xixi Wu, Yong Jiang, Ming Yan, Pengjun Xie, Fei Huang, Jingren Zhou,
- Abstract要約: WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
- 参考スコア(独自算出の注目度): 72.5231321118689
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Transcending human cognitive limitations represents a critical frontier in LLM training. Proprietary agentic systems like DeepResearch have demonstrated superhuman capabilities on extremely complex information-seeking benchmarks such as BrowseComp, a feat previously unattainable. We posit that their success hinges on a sophisticated reasoning pattern absent in open-source models: the ability to systematically reduce extreme uncertainty when navigating vast information landscapes. Based on this insight, we introduce WebSailor, a complete post-training methodology designed to instill this crucial capability. Our approach involves generating novel, high-uncertainty tasks through structured sampling and information obfuscation, RFT cold start, and an efficient agentic RL training algorithm, Duplicating Sampling Policy Optimization (DUPO). With this integrated pipeline, WebSailor significantly outperforms all opensource agents in complex information-seeking tasks, matching proprietary agents' performance and closing the capability gap.
- Abstract(参考訳): 人間の認知的限界を超越することは、LLMトレーニングにおける重要なフロンティアである。
DeepResearchのようなプロプライエタリなエージェントシステムは、BrowseCompのような非常に複雑な情報検索ベンチマークで超人的な能力を実証している。
彼らの成功は、オープンソースモデルに欠けている洗練された推論パターン、つまり、膨大な情報ランドスケープをナビゲートする際の極端な不確実性を体系的に低減できる能力に基づいていると仮定する。
この知見に基づいて、私たちは、この重要な能力を具現化するように設計された、完全なポストトレーニング方法論であるWebSailorを紹介します。
提案手法では, 構造化サンプリングと情報難読化, RFTコールドスタート, および効率的なエージェントRLトレーニングアルゴリズムDuplicating Smpling Policy Optimization (DUPO) を用いて, 新規で不確実なタスクを生成する。
この統合パイプラインにより、WebSailorは複雑な情報検索タスクにおいてすべてのオープンソースエージェントを著しく上回り、プロプライエタリなエージェントのパフォーマンスにマッチし、能力のギャップを埋める。
関連論文リスト
- WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents [20.85611634311147]
本稿では,GUIエージェントのための完全自動クローズドループ強化学習パイプラインであるWebFactoryを紹介する。
我々のエージェントは例外的なデータ効率と一般化を実証する。
この研究は、受動的インターネット知識をアクティブで接地されたインテリジェンスに変換するためのスケーラブルで費用効率のよいパラダイムを提示します。
論文 参考訳(メタデータ) (2026-03-05T10:51:34Z) - Steering LLMs via Scalable Interactive Oversight [74.12746881843044]
大規模な言語モデルは、エンフェーブコーディングのような複雑で長期にわたるタスクをますます自動化し、監督のギャップが生まれています。
スケーラブルな監視において重要な課題は、人間が責任を持ってAIシステムを、特定または検証する能力を超えたタスクで操ることができることだ。
論文 参考訳(メタデータ) (2026-02-04T04:52:00Z) - WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文 参考訳(メタデータ) (2025-09-16T17:57:03Z) - WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents [57.203515352080295]
本稿では,モデルに基づく探索と反復的,長短のクエリ進化を用いた体系的データ生成手法であるWebExplorerを紹介する。
我々のモデルは、128Kのコンテキスト長と最大100のツール呼び出しスイッチをサポートし、長期の問題解決を可能にします。
8Bサイズのモデルとして、WebExplorer-8Bは、RLトレーニング後の平均16ターンを効果的に探索することができる。
論文 参考訳(メタデータ) (2025-09-08T10:07:03Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent [68.3311163530321]
Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。
このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。
本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
論文 参考訳(メタデータ) (2025-08-07T18:03:50Z) - WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization [68.46693401421923]
WebShaperは集合論を通してISタスクを体系的に定式化する。
WebShaperは、GAIAおよびWebWalkerQAベンチマーク上で、オープンソースISエージェントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-20T17:53:37Z) - LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents [3.6117068575553595]
トレーニング後の完全なパイプラインを自律的に構築し、最適化するフレームワークであるLaMDAgentを紹介します。
LaMDAgentは、ツールの使用精度を9.0ポイント向上し、命令追従機能を保持する。
従来の人間主導の探査で見落とされがちな効果的なポストトレーニング戦略を明らかにする。
論文 参考訳(メタデータ) (2025-05-28T04:30:51Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - WebThinker: Empowering Large Reasoning Models with Deep Research Capability [60.81964498221952]
WebThinkerは、大規模な推論モデルに、Webを自律的に検索し、Webページをナビゲートし、推論プロセス中に研究レポートをドラフトする権限を与えるディープリサーチエージェントである。
また、textbf Autonomous Think-Search-and-Draft戦略を採用しており、モデルがシームレスに推論、情報収集、レポート作成をリアルタイムで行うことができる。
我々のアプローチは複雑なシナリオにおけるLEMの信頼性と適用性を高め、より有能で多目的な深層研究システムへの道を開く。
論文 参考訳(メタデータ) (2025-04-30T16:25:25Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。
動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。
提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文 参考訳(メタデータ) (2025-03-17T15:27:02Z) - WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs [10.380692079063467]
本稿では,Web検索と知識グラフを統合したWeKnow-RAGを提案する。
まず,知識グラフの構造化表現と高次ベクトル検索の柔軟性を組み合わせることで,LLM応答の精度と信頼性を向上させる。
提案手法は,情報検索の効率と精度を効果的にバランスさせ,全体の検索プロセスを改善する。
論文 参考訳(メタデータ) (2024-08-14T15:19:16Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - KwaiAgents: Generalized Information-seeking Agent System with Large
Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。
大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。
LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文 参考訳(メタデータ) (2023-12-08T08:11:11Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。