論文の概要: DRBENCHER: Can Your Agent Identify the Entity, Retrieve Its Properties and Do the Math?
- arxiv url: http://arxiv.org/abs/2604.09251v1
- Date: Fri, 10 Apr 2026 12:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.847739
- Title: DRBENCHER: Can Your Agent Identify the Entity, Retrieve Its Properties and Do the Math?
- Title(参考訳): DRBENCHER: エージェントはエンティティを識別し、そのプロパティを検索し、数学を実行できるか?
- Authors: Young-Suk Lee, Ramon Fernandez Astudillo, Radu Florian,
- Abstract要約: DRBENCHERは、ブラウジングと計算の両方を必要とする質問のための合成ベンチマークジェネレータである。
検証可能性、複雑さ、難易度、多様性の4つの基準を強制する。
人間の評価は76%の妥当性を示し、35%のエラーは古い知識グラフのエントリによるものである。
- 参考スコア(独自算出の注目度): 12.977641563457135
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep research agents increasingly interleave web browsing with multi-step computation, yet existing benchmarks evaluate these capabilities in isolation, creating a blind spot in assessing real-world performance. We introduce DRBENCHER, a synthetic benchmark generator for questions that require both browsing and computation. It enforces four criteria: verifiability (gold answers are computed by executing parameterized code over knowledge-graph values), complexity (multi-hop entity identification, property retrieval, and domain-specific computation), difficulty (a two-stage verification cascade filters out questions solvable by the generating model), and diversity (a greedy max-min embedding filter maximizes coverage). These criteria are realized via a unified answer-first pipeline spanning five domains: biochemistry, financial, geophysical, security, and history. Human evaluation shows 76% validity (84% excluding stale data), with 35% of errors due to outdated knowledge-graph entries, highlighting an inherent limitation of systems that reason over evolving data. Automatic evaluation shows that the strongest frontier model achieves only 20% answer accuracy. Compared to manually constructed benchmarks (BrowseComp+, MATH-500, GPQA), DRBENCHER achieves the highest semantic diversity.
- Abstract(参考訳): ディープリサーチエージェントは、Webブラウジングを多段階計算でインターリーブする傾向にあるが、既存のベンチマークでは、これらの機能を独立して評価し、現実世界のパフォーマンスを評価する盲点を生み出している。
DRBENCHERは、ブラウジングと計算の両方を必要とする質問のための総合ベンチマークジェネレータである。
検証可能性(ゴールドの回答は知識グラフ値よりもパラメータ化されたコードを実行することで計算される)、複雑さ(マルチホップエンティティの識別、プロパティの検索、ドメイン固有の計算)、難易度(生成モデルで解決可能な質問を2段階の検証カスケードでフィルタリングする)、多様性(グレディな最大ミン埋め込みフィルタがカバレッジを最大化する)の4つの基準を強制する。
これらの基準は、生物化学、金融、地球物理学、セキュリティ、歴史の5つの領域にまたがる統一された回答ファーストパイプラインを通じて実現される。
人間の評価は、76%の妥当性(古いデータを除く84%)を示し、古い知識グラフのエントリによるエラーの35%は、進化するデータの理由となるシステムの固有の制限を強調している。
評価の結果,最強フロンティアモデルでは解答精度が20%に過ぎなかった。
手作業によるベンチマーク(BrowseComp+, MATH-500, GPQA)と比較して、DRBENCHERは最もセマンティックな多様性を実現する。
関連論文リスト
- DepthCharge: A Domain-Agnostic Framework for Measuring Depth-Dependent Knowledge in Large Language Models [51.56484100374058]
大きな言語モデルは一般的な質問に答えるときに有能に見えるが、ドメイン固有の詳細にプッシュされると失敗することが多い。
3つのイノベーションを通じて知識の深さを測定するドメインに依存しないフレームワークであるDepthChargeを紹介します。
モデルが実際に言及している概念に基づいてフォローアップ質問を生成する適応的探索、権威のある情報源からのオンデマンドの事実検証、あらゆる深さのサンプルサイズが一定である生存統計。
論文 参考訳(メタデータ) (2026-03-05T20:49:11Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs [33.87001216244801]
Attributed Question Answering (AQA) は注目されているが、その属性を評価するにはいくつかの制限がある。
本稿では,包括的帰属カテゴリを含む大規模ベンチマークであるCAQAを紹介する。
我々はCAQAの有効性を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-01-26T04:11:07Z) - AGIBench: A Multi-granularity, Multimodal, Human-referenced,
Auto-scoring Benchmark for Large Language Models [3.518832148294879]
ChatGPTのような大規模言語モデルの問題解決能力を評価する方法はホットスポットだが難しい問題だ。
本稿では,LLMのマルチグラニュラ性,マルチモーダル,ヒューマン参照,オートスコーリングのベンチマーク手法であるAGIBenchを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。