論文の概要: WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent
- arxiv url: http://arxiv.org/abs/2508.05748v1
- Date: Thu, 07 Aug 2025 18:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.971493
- Title: WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent
- Title(参考訳): WebWatcher: ビジョンランゲージのディープリサーチエージェントの新たなフロンティア
- Authors: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou,
- Abstract要約: Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。
このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。
本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
- 参考スコア(独自算出の注目度): 67.35045977420089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web agents such as Deep Research have demonstrated superhuman cognitive abilities, capable of solving highly challenging information-seeking problems. However, most research remains primarily text-centric, overlooking visual information in the real world. This makes multimodal Deep Research highly challenging, as such agents require much stronger reasoning abilities in perception, logic, knowledge, and the use of more sophisticated tools compared to text-based agents. To address this limitation, we introduce WebWatcher, a multi-modal Agent for Deep Research equipped with enhanced visual-language reasoning capabilities. It leverages high-quality synthetic multimodal trajectories for efficient cold start training, utilizes various tools for deep reasoning, and further enhances generalization through reinforcement learning. To better evaluate the capabilities of multimodal agents, we propose BrowseComp-VL, a benchmark with BrowseComp-style that requires complex information retrieval involving both visual and textual information. Experimental results show that WebWatcher significantly outperforms proprietary baseline, RAG workflow and open-source agents in four challenging VQA benchmarks, which paves the way for solving complex multimodal information-seeking tasks.
- Abstract(参考訳): Deep ResearchのようなWebエージェントは超人的な認知能力を示しており、高度に難解な情報検索問題を解くことができる。
しかし、ほとんどの研究は主にテキスト中心であり、現実世界の視覚情報を見下ろしている。
このようなエージェントは、認識、論理、知識、そしてテキストベースのエージェントよりも高度なツールの使用において、はるかに強力な推論能力を必要とするため、マルチモーダルなDeep Researchは非常に難しい。
この制限に対処するために,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
高品質な合成多モード軌道を利用して効率的なコールドスタート訓練を行い、様々なツールを深い推論に利用し、強化学習による一般化をさらに強化する。
マルチモーダルエージェントの性能を評価するため,視覚情報とテキスト情報の両方を含む複雑な情報検索を必要とするBrowseComp-VLというベンチマークを提案する。
実験の結果,WebWatcherは,複雑なマルチモーダル情報検索タスクの解決方法として,プロプライエタリなベースライン,RAGワークフロー,オープンソースエージェントを4つの挑戦的なVQAベンチマークで大幅に上回っていることがわかった。
関連論文リスト
- DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [4.817888539036794]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-03T12:59:07Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - WebThinker: Empowering Large Reasoning Models with Deep Research Capability [60.81964498221952]
WebThinkerは、大規模な推論モデルに、Webを自律的に検索し、Webページをナビゲートし、推論プロセス中に研究レポートをドラフトする権限を与えるディープリサーチエージェントである。
また、textbf Autonomous Think-Search-and-Draft戦略を採用しており、モデルがシームレスに推論、情報収集、レポート作成をリアルタイムで行うことができる。
我々のアプローチは複雑なシナリオにおけるLEMの信頼性と適用性を高め、より有能で多目的な深層研究システムへの道を開く。
論文 参考訳(メタデータ) (2025-04-30T16:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。