論文の概要: LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
- arxiv url: http://arxiv.org/abs/2605.28721v1
- Date: Wed, 27 May 2026 16:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.222384
- Title: LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
- Title(参考訳): LiveBrowseComp: 検索エージェントは検索中か、それとも、すでに知っていることを検証中か?
- Authors: HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu,
- Abstract要約: LLMベースの検索エージェントは、外部の証拠よりも本質的な知識に依存している。
LiveBrowseCompは、固有のカバレッジ以上のエージェントを評価するために設計されたベンチマークである。
評価されたすべてのエージェントは、クローズドブックの精度を2%以下に抑え、検索強化されたスコアは、BrowseCompと比較して25~40ポイント減少し、以前のモデルランキングは、もはやパフォーマンスを確実に予測することができない。
- 参考スコア(独自算出の注目度): 32.434901767447165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.
- Abstract(参考訳): LLMベースの検索エージェントは真に検索しているか、それともウェブを使って既に知っていることを検証しているのか?
本稿では,BrowseCompについて3つの診断法を用いて検討する。
ツールアクセスであっても、エージェントは、外部の証拠ではなく、検索前にモデルにエンコードされた情報である本質的な知識に依存します。
エージェントはツールを使わずに44.5%のBrowseComp質問に回答し、検索された手がかりではなく内部で生成された仮説から検索クエリの半分以上を生成し、回答を支持する証拠が削除された場合、クローズドブックのベースラインよりも悪い結果をもたらす。
これらの結果は、静的検索ベンチマークがエビデンス駆動の発見よりもメモリ支援による検証に報いることを示唆している。
次に、本質的なカバレッジ以上のエージェントを評価するために設計された、Deep-searchベンチマークであるLiveBrowseCompを紹介します。
そこには、335人の人間による質問が含まれており、その答えは、ベンチマーク構築前の90日以内に公表された事実に依存している。
LiveBrowseCompでは、評価されたすべてのエージェントは、2%のクローズドブック精度以下、検索強化されたスコアは、BrowseCompと比較して25~40ポイント減少し、以前のモデルランキングは、もはやパフォーマンスを確実に予測しない。
LiveBrowseCompはhttps://huggingface.co/datasets/Forival/LiveBrowseCompで入手できる。
関連論文リスト
- EigentSearch-Q+: Enhancing Deep Research Agents with Structured Reasoning Tools [12.61248869302151]
ウェブ検索をより意図的にするためのクエリおよびエビデンス処理ツールであるQ+を紹介する。
当社はQ+をオープンソースでプロダクション対応のマルチエージェントワーカーであるEigentのブラウザサブエージェントに統合しています。
4つのベンチマークで、Q+はEigentのベンチマークサイズ重み付け平均精度を3.0、3.8、0.6ポイント(pp)改善した。
論文 参考訳(メタデータ) (2026-04-09T07:47:31Z) - iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics [9.25340189071758]
iAgentBenchは,クロスソース・センスメイキングのための動的ODQAベンチマークである。
iAgentBenchは、現実世界の注目信号からシードトピックを抽出し、共通のユーザ意図パターンを使用して、ユーザライクな質問を構築する。
各インスタンスには、トレース可能なエビデンスと、汚染チェックをサポートする監査可能な中間アーティファクトが付属している。
論文 参考訳(メタデータ) (2026-03-04T22:40:08Z) - AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - SE-Search: Self-Evolving Search Agent via Memory and Dense Reward [87.79131676521656]
Retrieval augmented generation (RAG)は、検索した外部知識を条件づけることにより、大規模言語モデル(LLM)における幻覚や事実エラーを低減する。
既存の手法は、無関係または騒々しい文書を蓄積し、希少な強化学習信号に依存することが多い。
我々は,3つのコンポーネントによるオンライン検索行動を改善するセルフ進化検索エージェントであるtextbfSelf-textbfEvolving textbfSearchを提案する。
論文 参考訳(メタデータ) (2026-02-06T09:14:07Z) - InfoAgent: Advancing Autonomous Information-Seeking Agents [143.15973604285304]
本稿では,革新的なデータ合成パイプラインとWeb検索ツールを駆使したディープリサーチエージェントInfoAgentを紹介する。
我々の方法では、InfoAgentはBrowseCompで15.3%、BrowseComp-ZHで29.2%、Xbench-DSで40.4%の精度を達成した。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。