論文の概要: Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics
- arxiv url: http://arxiv.org/abs/2510.05137v1
- Date: Wed, 01 Oct 2025 07:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.841933
- Title: Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics
- Title(参考訳): Demystifying Deep Search: ヒントのないマルチホップ質問と要因付きメトリクスによる総合的評価
- Authors: Maojia Song, Renhang Liu, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Soujanya Poria, Jingren Zhou,
- Abstract要約: We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
- 参考スコア(独自算出の注目度): 89.1999907891494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RAG (Retrieval-Augmented Generation) systems and web agents are increasingly evaluated on multi-hop deep search tasks, yet current practice suffers from two major limitations. First, most benchmarks leak the reasoning path in the question text, allowing models to follow surface cues rather than discover reasoning chains autonomously. Second, evaluation is typically reduced to a single pass rate, which collapses diverse behaviours into one score and obscures whether failures stem from inadequate search, poor knowledge use, or inappropriate refusal. To address these issues, we present WebDetective, a benchmark of hint-free multi-hop questions paired with a controlled Wikipedia sandbox that ensures full traceability of model actions, and a holistic evaluation framework that separates search sufficiency, knowledge utilisation, and refusal behaviour. Our evaluation of 25 state-of-the-art models reveals systematic weaknesses across all architectures: models struggle with knowledge utilisation despite having sufficient evidence and demonstrate near-absent appropriate refusal when evidence is lacking. These patterns expose a fundamental gap: today's systems excel at executing given reasoning paths but fail when required to discover them. We develop an agentic workflow, EvidenceLoop, that explicitly targets the challenges our benchmark identifies, incorporating verification loops and systematic evidence tracking that improve both search and synthesis capabilities. This baseline demonstrates that WebDetective's diagnostic framework can guide concrete architectural improvements, establishing our benchmark as a critical tool for developing genuinely autonomous reasoning systems rather than pattern-following agents.
- Abstract(参考訳): RAG(Retrieval-Augmented Generation)システムとWebエージェントは、マルチホップ深層検索タスクでますます評価されているが、現在の実践には2つの大きな制限がある。
まず、ほとんどのベンチマークは、質問テキストの推論パスをリークし、モデルが推論チェーンを自律的に発見するのではなく、表面的な手がかりに従うことができる。
第二に、評価は通常、1回のパスレートに低下し、多様な振る舞いを1つのスコアに分解し、失敗が不十分な探索、知識使用不足、あるいは不適切な拒絶に起因するかどうかを曖昧にする。
これらの問題に対処するため、WebDetectiveは、モデルアクションの完全なトレーサビリティを保証する制御されたウィキペディアサンドボックスと組み合わせたヒントのないマルチホップ質問のベンチマークである。
モデルが十分な証拠を持っているにもかかわらず知識活用に苦慮し、証拠が不足している場合にほぼ確実に拒絶することを示す。
今日のシステムは、所定の推論パスを実行するのに優れていますが、それを発見するために必要な場合には失敗します。
我々はエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットとし、検証ループと、検索機能と合成機能の両方を改善する系統的なエビデンス追跡を組み込んだ。
このベースラインは、WebDetectiveの診断フレームワークが具体的なアーキテクチャ改善をガイドできることを示し、私たちのベンチマークをパターン追跡エージェントではなく、真に自律的な推論システムを開発するための重要なツールとして確立しています。
関連論文リスト
- An Empirical Study on Failures in Automated Issue Solving [12.571536148821144]
我々は,SWE-Bench-Verifiedの自動問題解決タスクにおいて,パイプラインベースとエージェントアーキテクチャの両方にまたがる3つのSOTAツールの性能と効率を分析する。
ハイレベルなパフォーマンス指標から根本原因分析に移行するために,150件の障害事例の体系的手動分析を行った。
その結果、2つのアーキテクチャパラダイムの間には明確な失敗の指紋が明らかとなり、ほとんどのエージェント的失敗は、欠陥のある推論と認知的デッドロックに起因する。
論文 参考訳(メタデータ) (2025-09-17T13:07:52Z) - GRADE: Generating multi-hop QA and fine-gRAined Difficulty matrix for RAG Evaluation [5.002953635224383]
Retrieval-Augmented Generation (RAG) システムは知識集約型NLPタスクに広く採用されている。
現在の評価は、実世界のシナリオで必要とされる構造的な複雑さと多段階の推論を見落としていることが多い。
タスクの難易度を2次元でモデル化する新しい評価フレームワークであるtextscGRADEを提案する。
論文 参考訳(メタデータ) (2025-08-23T11:26:41Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains [19.579511315215424]
大規模な言語モデルは、フィードバックを通じて推論能力を高めるために強化学習に依存している。
既存の研究では、より良い検証器の構築に焦点が当てられているが、異なる種類の検証器の性能の体系的な評価は依然として不十分である。
我々は、数学、物理学、化学、生物学に関する4000のエキスパートレベルの質問を構築した。
各質問には基準回答と多様な応答が備わっている。
論文 参考訳(メタデータ) (2025-07-14T03:45:24Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - What Does My QA Model Know? Devising Controlled Probes using Expert
Knowledge [36.13528043657398]
我々は,現在最先端のQAモデルが,単語定義や一般的な分類学的推論に関する一般的な知識を持っているかどうかを検討する。
さまざまなタイプの専門家の知識からデータセットを自動的に構築するための方法論を使用します。
評価の結果,変圧器を用いたQAモデルはすでにある種の構造的語彙的知識を認識できないことが確認された。
論文 参考訳(メタデータ) (2019-12-31T15:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。