論文の概要: Needle in the Web: A Benchmark for Retrieving Targeted Web Pages in the Wild
- arxiv url: http://arxiv.org/abs/2512.16553v1
- Date: Thu, 18 Dec 2025 13:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.085321
- Title: Needle in the Web: A Benchmark for Retrieving Targeted Web Pages in the Wild
- Title(参考訳): Needle in the Web: ターゲットとするWebページをワイルドに検索するためのベンチマーク
- Authors: Yumeng Wang, Tianyu Fan, Lingrui Xu, Chao Huang,
- Abstract要約: Needle in the Web(ニードル・イン・ザ・ウェブ)は、現実世界のウェブコンテンツを検索し、推論する能力に基づいて、現代の検索エージェントとLLMベースのシステムを評価するために設計された新しいベンチマークである。
我々は3つの主要なLCMと3つのエージェントベースのサーチシステムをWeb上でベンチマークし、ほとんどのモデルが苦労していることを発見した。
これらの結果から,Web上のNeedleは,現在の検索システムにとって重要な課題であることが明らかとなった。
- 参考スコア(独自算出の注目度): 9.91566589898295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have evolved from simple chatbots into sophisticated agents capable of automating complex real-world tasks, where browsing and reasoning over live web content is key to assessing retrieval and cognitive skills. Existing benchmarks like BrowseComp and xBench-DeepSearch emphasize complex reasoning searches requiring multi-hop synthesis but neglect Fuzzy Exploratory Search, namely queries that are vague and multifaceted, where users seek the most relevant webpage rather than a single factual answer. To address this gap, we introduce Needle in the Web, a novel benchmark specifically designed to evaluate modern search agents and LLM-based systems on their ability to retrieve and reason over real-world web content in response to ambiguous, exploratory queries under varying levels of difficulty. Needle in the Web comprises 663 questions spanning seven distinct domains. To ensure high query quality and answer uniqueness, we employ a flexible methodology that reliably generates queries of controllable difficulty based on factual claims of web contents. We benchmark three leading LLMs and three agent-based search systems on Needle in the Web, finding that most models struggle: many achieve below 35% accuracy, and none consistently excel across domains or difficulty levels. These findings reveal that Needle in the Web presents a significant challenge for current search systems and highlights the open problem of effective fuzzy retrieval under semantic ambiguity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、単純なチャットボットから複雑な現実世界のタスクを自動化する高度なエージェントへと進化してきた。
BrowseCompやxBench-DeepSearchのような既存のベンチマークでは、マルチホップ合成を必要とする複雑な推論検索を強調しているが、ファジィ探索探索は無視されている。
このギャップに対処するために、我々はNeedle in the Webという、最新の検索エージェントとLLMベースのシステムに対して、様々な難易度であいまいで探索的なクエリに応答して、現実世界のWebコンテンツを検索し、推論する能力を評価するために設計された新しいベンチマークを紹介した。
Needle in the Webは7つの異なるドメインにまたがる633の質問で構成されている。
高いクエリ品質と解答の独特性を確保するために,Webコンテンツの事実的クレームに基づいて,制御し難いクエリを確実に生成するフレキシブルな方法論を採用している。
我々は3つの主要なLCMと3つのエージェントベースの検索システムをWeb上でベンチマークし、ほとんどのモデルが苦戦していることを発見した。
これらの結果から,WebにおけるNeedleは,現在の検索システムにとって重要な課題であり,意味的曖昧さの下での効果的なファジィ検索のオープンな課題を強調していることがわかった。
関連論文リスト
- DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent [68.3311163530321]
Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。
このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。
本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
論文 参考訳(メタデータ) (2025-08-07T18:03:50Z) - Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents [9.003325286793288]
人間の言語を理解するために採用された大規模言語モデル(LLM)は、人工知能(AI)ウェブサーチエージェントの開発を促進する。
本稿では、レベル認識ナビゲーションによる汎用的かつトレーニング不要なWeb検索エージェントであるLevel-Navi Agentについて、十分な注釈付きデータセット(Web24)と適切な評価基準を伴って提案する。
論文 参考訳(メタデータ) (2024-12-20T08:03:12Z) - MindSearch: Mimicking Human Minds Elicits Deep AI Searcher [50.68599514830046]
我々は、Web情報検索と統合における人間の心を模倣するMindSearchを紹介した。
このフレームワークは、シンプルだが効果的なLLMベースのマルチエージェントフレームワークによってインスタンス化できる。
MindSearchは、深さと幅の点でレスポンス品質が大幅に改善されている。
論文 参考訳(メタデータ) (2024-07-29T17:12:40Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。