論文の概要: BrowseMaster: Towards Scalable Web Browsing via Tool-Augmented Programmatic Agent Pair
- arxiv url: http://arxiv.org/abs/2508.09129v1
- Date: Tue, 12 Aug 2025 17:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.537028
- Title: BrowseMaster: Towards Scalable Web Browsing via Tool-Augmented Programmatic Agent Pair
- Title(参考訳): BrowseMaster: ツール拡張プログラムエージェントペアによるスケーラブルなWebブラウザの実現
- Authors: Xianghe Pang, Shuo Tang, Rui Ye, Yuwen Du, Yaxin Du, Siheng Chen,
- Abstract要約: 現在の大規模言語モデル(M)ベースのエージェントは,探索幅の制限や推論深度によるバランスの達成に苦慮している。
拡張プランナー-実行エージェントペアを中心に構築されたBrowseMasterフレームワークを提案する。
英語と中国語のテストでは、BrowseMasterはオープンなベンチマークとプロプライエタリなベースラインを一貫して上回り、BrowseComp-enで3点、BrowseComp-zhで46.5点を記録している。
- 参考スコア(独自算出の注目度): 28.052062258597225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective information seeking in the vast and ever-growing digital landscape requires balancing expansive search with strategic reasoning. Current large language model (LLM)-based agents struggle to achieve this balance due to limitations in search breadth and reasoning depth, where slow, serial querying restricts coverage of relevant sources and noisy raw inputs disrupt the continuity of multi-step reasoning. To address these challenges, we propose BrowseMaster, a scalable framework built around a programmatically augmented planner-executor agent pair. The planner formulates and adapts search strategies based on task constraints, while the executor conducts efficient, targeted retrieval to supply the planner with concise, relevant evidence. This division of labor preserves coherent, long-horizon reasoning while sustaining broad and systematic exploration, overcoming the trade-off that limits existing agents. Extensive experiments on challenging English and Chinese benchmarks show that BrowseMaster consistently outperforms open-source and proprietary baselines, achieving scores of 30.0 on BrowseComp-en and 46.5 on BrowseComp-zh, which demonstrates its strong capability in complex, reasoning-heavy information-seeking tasks at scale.
- Abstract(参考訳): 巨大で成長を続けるデジタルランドスケープで効果的な情報を求めるには、広範にわたる検索と戦略的推論のバランスが必要である。
現在の大規模言語モデル(LLM)ベースのエージェントは、検索幅の制限と推論深度のためにこのバランスを達成するのに苦労し、遅いシリアルクエリは関連するソースのカバレッジを制限し、ノイズの多い生入力は多段階推論の連続性を阻害する。
これらの課題に対処するために、プログラム的に拡張されたプランナー-実行エージェントペアを中心に構築されたスケーラブルなフレームワークであるBrowseMasterを提案する。
プランナーはタスク制約に基づいて探索戦略を定式化し適応し、実行者は効率的な目標探索を行い、プランナーに簡潔で適切な証拠を提供する。
この分業は、広範かつ体系的な探検を継続しながら、一貫性のある長期水平推論を維持し、既存のエージェントを制限するトレードオフを克服する。
BrowseMasterはBrowseComp-enで30.0点、BrowseComp-zhで46.5点を記録した。
関連論文リスト
- Training Multi-Turn Search Agent via Contrastive Dynamic Branch Sampling [29.182538022605627]
Branching Relative Policy Optimization (BranPO) は、高額な報酬なしで段階レベルのコントラスト管理を提供する価値のない手法である。
BranPOは尾部付近の軌跡を切断し、他の連続をサンプリングし、共有接頭辞の上に対照的な接尾辞を構成する。
さらに効率を向上し、トレーニングを安定させるために、タスク間の分岐周波数に適応する難易度分岐サンプリングと、不正な動作を抑制するために冗長なステップマスキングを導入する。
論文 参考訳(メタデータ) (2026-02-03T16:43:09Z) - DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents [10.197402632091551]
DeepSearchQAは、難しい多段階情報検索タスクのエージェントを評価する900プロンプトのベンチマークである。
このデータセットは、エージェントが複雑な検索計画を実行し、完全な回答リストを生成する能力を評価するように設計されている。
論文 参考訳(メタデータ) (2026-01-28T19:20:47Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文 参考訳(メタデータ) (2025-11-24T17:09:43Z) - ParallelMuse: Agentic Parallel Thinking for Deep Information Seeking [59.65564262588308]
並列思考は探索範囲を広げ、情報探索(IS)エージェントの深い探索を補完する。
ディープISエージェント用に設計された2段階パラダイムであるParallelMuseを提案する。
複数のオープンソースエージェントとベンチマークの実験では、最大62%のパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2025-10-28T17:51:50Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent [67.35045977420089]
Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。
このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。
本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
論文 参考訳(メタデータ) (2025-08-07T18:03:50Z) - WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-03T12:59:07Z) - TaskCraft: Automated Generation of Agentic Tasks [39.33785092294476]
エージェントタスクは、自律性、ツールの使用、適応推論による多段階的な問題解決を必要とする。
textscCraftTaskは、難易度、マルチツール、検証可能なエージェントタスクを生成する自動化ワークフローである。
本稿では,エージェントチューニングと評価に関する今後の研究を支援するために,約36,000のタスクからなる大規模合成データセットを提案する。
論文 参考訳(メタデータ) (2025-06-11T17:58:14Z) - Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。
動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。
提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文 参考訳(メタデータ) (2025-03-17T15:27:02Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - PromptAgent: Strategic Planning with Language Models Enables
Expert-level Prompt Optimization [60.00631098364391]
PromptAgentは、エキスパートレベルのプロンプトを、専門家による手工芸品と同等の品質で作成する最適化手法である。
PromptAgentは人間のような試行錯誤の探索にインスパイアされ、専門家レベルの正確な洞察と詳細な指示を誘導する。
PromptAgentを3つの実践領域にまたがる12のタスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T07:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。