論文の概要: DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation
- arxiv url: http://arxiv.org/abs/2605.21482v1
- Date: Wed, 20 May 2026 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.834389
- Title: DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation
- Title(参考訳): DeepWeb-Bench: 大規模なクロスソースエビデンスと長距離派生を要求するディープリサーチベンチマーク
- Authors: Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma,
- Abstract要約: 最先端の研究製品は、既存のベンチマークで高いスコアを得ます。
現在のフロンティアの既存のベンチマークよりもはるかに難しいベンチマークであるDeepWeb-Benchを紹介します。
- 参考スコア(独自算出の注目度): 2.0095457635839455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep research, in which an agent searches the open web, collects evidence, and derives an answer through extended reasoning, is a prominent use case for frontier language models. Frontier deep research products score high on existing benchmarks, making it difficult to distinguish their capabilities from current evaluation data alone. We introduce DeepWeb-Bench, a deep research benchmark that is substantially harder than existing benchmarks for the current frontier. Difficulty comes from three properties of the data itself: each task requires massive evidence collection, cross-source reconciliation, and long-horizon multi-step derivation. We represent these three sources of difficulty as four capability families (Retrieval, Derivation, Reasoning, and Calibration) and report results sliced by family. Every reference answer is accompanied by a source-provenance record with four disclosure levels and cross-source checks where available, making scores easier to audit against the underlying evidence. We evaluate DeepWeb-Bench on nine frontier models and report three findings: (1) retrieval is not the bottleneck, as retrieval failures account for only 12-14% of errors while derivation and calibration failures account for over 70%; (2) strong and weak models fail in qualitatively different ways, with strong models' errors dominated by incomplete derivation and weak models' by hallucinated precision; and (3) models exhibit genuine specialization across domains, with cross-model agreement of only rho = 0.61 and per-case disagreement reaching 18.8 percentage points. The public benchmark release includes the data, rubrics, and evaluation code.
- Abstract(参考訳): エージェントがオープンウェブを検索し、証拠を収集し、拡張推論を通じて答えを導き出すディープリサーチは、フロンティア言語モデルの顕著なユースケースである。
最先端の研究製品は既存のベンチマークで高いスコアを得ており、現在の評価データのみと区別することは困難である。
DeepWeb-Benchは、現在のフロンティアの既存のベンチマークよりもはるかに難しい、ディープリサーチベンチマークです。
各タスクには巨大なエビデンス収集、ソース間の和解、長期的多段階導出という3つの特性がある。
これら3つの困難要因を,4つの能力ファミリー(検索,デリバティブ,推論,校正)として表現し,報告結果を家族によってスライスした。
すべての参照回答には,4つの公開レベルを持つソース保証記録と,利用可能なクロスソースチェックが添付されているため,基盤となるエビデンスに対するスコアの監査が容易になる。
我々は,DeepWeb-Bench を9つのフロンティアモデルで評価し,(1) 検索失敗が12-14% の誤差しか示さないこと,(2) 強いモデルと弱いモデルが定性的に異なる方法で失敗すること,(2) 不完全な導出と弱いモデルが支配するモデルエラーが幻覚的精度で発生すること,(3) モデルがドメイン間の真の特殊化を示すこと,そして、Rho = 0.61 とケースごとの不一致が18.8 ポイントに達すること,の3点を報告した。
公開ベンチマークリリースには、データ、ルーリック、評価コードが含まれている。
関連論文リスト
- Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents [0.18762753243053634]
大規模言語モデル(LLM)は、数百のWebソースから情報を引用したレポートに合成するディープリサーチエージェントをパワーアップする。
現在のアプローチでは、信頼モデルが正確な自己引用、バイアスのリスク、あるいはソースアクセシビリティ、関連性、事実整合性を検証しない検索強化世代(RAG)を採用する。
本稿では,再現可能なASTルーブリックを用いてインライン引用を大規模に抽出し,評価する最初の情報源属性評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-07T17:46:45Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Detecting Corporate AI-Washing via Cross-Modal Semantic Inconsistency Learning [0.0]
本稿では,AI洗浄検出を再定義するフレームワークであるAWASHについて,モーダルなクレームエビデンス推論として紹介する。
本稿では,クレーム・エビデンス関連推論のための構造化自然言語推論モジュールであるトリモーダルエンコーダを統合する,CMID(Cross-Modal Inconsistency Detection)ネットワークを提案する。
CMIDはF1スコアが0.882、AUC-ROCが0.921であり、テキストのみのベースラインが17.4ポイント、最新のマルチモーダル・コンペティターが11.3ポイントを上回っている。
論文 参考訳(メタデータ) (2026-03-24T01:30:36Z) - From Comprehension to Reasoning: A Hierarchical Benchmark for Automated Financial Research Reporting [19.0993436440595]
FinReasoningは、中国のリサーチレポート生成を3段階に分解するベンチマークだ。
評価結果に基づいて、FinReasoningはほとんどのモデルが理解と実行のギャップを示すことを示した。
論文 参考訳(メタデータ) (2026-02-25T13:44:58Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Uncovering Weaknesses in Neural Code Generation [21.552898575210534]
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。
CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。
CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。
すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
論文 参考訳(メタデータ) (2024-07-13T07:31:43Z) - Locate and Verify: A Two-Stream Network for Improved Deepfake Detection [33.50963446256726]
現在のディープフェイク検出法は一般に一般化が不十分である。
本稿では,モデルがエビデンスを抽出する潜在的領域を効果的に拡大する,革新的な2ストリームネットワークを提案する。
また、パッチレベルの偽位置アノテーションを推定するための半教師付きパッチ類似性学習戦略を提案する。
論文 参考訳(メタデータ) (2023-09-20T08:25:19Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。