論文の概要: Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps
- arxiv url: http://arxiv.org/abs/2605.17554v1
- Date: Sun, 17 May 2026 17:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.188072
- Title: Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps
- Title(参考訳): 専門家相談作業における深層調査エージェントの評価--検証者,ラグビー選手,認知的軌跡とのベンチマーク
- Authors: Tanmay Asthana, Aman Saksena, Divyansh Sahu,
- Abstract要約: Frontier Deep Research Agent(DRA)は、研究タスクを計画し、文書を合成し、必要に応じて構造化された成果を返却する。
既存のベンチマークは、ファクトリコール、シングルホップQA、ジェネリックエージェントスキルを計測する。
私たちは、Web検索を備えたClaude Opus 4.6、OpenAI o3-deep-research、Google Gemini 3.1 Proの3つのフロンティアエージェントを、42の中小企業のプロンプトで評価しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier deep research agents (DRAs) plan a research task, synthesize across documents, and return a structured deliverable on demand. They are being deployed in enterprise workflows faster than they are being evaluated. Existing benchmarks measure factual recall, single-hop QA, or generic agentic skill, missing the multi-document, decision-grade work DRAs are deployed to produce. We introduce a benchmark targeting the structured analytical deliverables that fill a management consultant's typical week. We grade three frontier agents, namely Claude Opus 4.6 with web search, OpenAI o3-deep-research, and Google Gemini 3.1 Pro deep-research, on 42 SME-authored prompts. Each of the 126 responses is scored on two layers: deterministic ground-truth verifiers (mean 13.8 per task) and a five-criterion 0-3 SME rubric, composed into a Verifier-Rubric Score (VRS) on 0-100. Most prompts embed cognitive traps that penalize surface-pattern matching. Acceptance under our joint threshold (rubric mean >= 2.5 and verifier rate >= 80%) is uniformly low: Gemini 21.4%, o3 9.5%, Claude 9.5%. Mean VRS scores agree with published rubric-based benchmarks (our top 62.6 vs. APEX-v1 64.2, ProfBench 65.9, ResearchRubrics < 68%), validating the rubric construct. ACCEPT rates sit below APEX-Agents' MC-segment Pass@1 band (12.3-22.7%) on dedicated DR agents; our floor is three points lower despite the harness advantage, opened by stricter conjunctive grading and trap design. Each agent fails distinctively. Claude produces the deliverable most reliably (4.5x the others' rate on file-required tasks) but carries the highest fabrication signature. o3 has the cleanest reasoning average yet drops required sections and propagates arithmetic errors. Gemini is bimodal, with the highest acceptance rate alongside the most zero-scored rubric cells.
- Abstract(参考訳): Frontier Deep Research Agent(DRA)は、研究タスクを計画し、文書を合成し、必要に応じて構造化された成果を返却する。
それらは評価されるよりも早く、エンタープライズワークフローにデプロイされます。
既存のベンチマークは、ファクトリコール、シングルホップQA、ジェネリックエージェントスキルを計測する。
我々は、経営コンサルタントの典型的な週を埋める構造化された分析的成果物をターゲットにしたベンチマークを導入する。
私たちは、Web検索を備えたClaude Opus 4.6、OpenAI o3-deep-research、Google Gemini 3.1 Proの3つのフロンティアエージェントを、42の中小企業のプロンプトで評価します。
それぞれの126の応答は、決定論的グラウンドトゥルース検証器(平均1タスクあたり13.8)と、0-100のベリヤ・ルーブリックスコア(VRS)を構成する5つの基準の0-3 SMEルーブリックの2つの層にスコアされる。
ほとんどのプロンプトは、表面パターンマッチングを罰する認知トラップを埋め込む。
我々のジョイントしきい値(ルブリック平均:2.5、検証率:80%)での受け入れは、一様に低く、Gemini 21.4%、o3 9.5%、Claude 9.5%である。
平均的なVRSスコアはルーブリックベースのベンチマーク(トップ62.6 vs. APEX-v1 64.2, ProfBench 65.9, ResearchRubrics < 68%)と一致し、ルーブリックの構成を検証する。
ACCEPTレートはAPEX-Agentsの専用DRエージェントのMC-segment Pass@1バンド(12.3-22.7%)よりも低い。
各エージェントは特有に失敗する。
クロードは最も確実に納品できる(ファイル要求タスクの4.5倍)が、最も高い製造シグネチャを持っている。
o3は、最もクリーンな推論平均を持つが、必要なセクションをドロップし、算術誤差を伝搬する。
ジェミニはバイモーダルであり、最も高い受容率と最もゼロ色のルーブリック細胞とを併せ持つ。
関連論文リスト
- Are Large Language Models Truly Smarter Than Humans? [0.0]
公開のリーダーボードでは、学術的知識、法律、プログラミングにまたがるベンチマークにおいて、大きな言語モデル(LLM)が人間の専門家を上回ることを示唆している。
本稿では,6つのフロンティアLSMの厳密な汚染監査を形成する3つの相補的な実験について述べる。
論文 参考訳(メタデータ) (2026-03-17T07:23:57Z) - QEDBENCH: Quantifying the Alignment Gap in Automated Evaluation of University-Level Mathematical Proofs [29.26861081722613]
我々は, 標準の「LLM-as-a-Judge」プロトコルが, 上学部から初期大学院レベルの数学に適用された場合, 体系的なアライメントギャップに悩まされることを実証した。
QEDBenchは、大学レベルの数学における人間の専門家とのアライメントを測定するための、最初の大規模デュアルルーブリックアライメントベンチマークである。
我々は,Claude Opus 4.5,DeepSeek-V3,Qwen 2.5 Max,Llama 4 Maverickなどのフロンティア評価が有意な正のバイアスを示すことを明らかにした。
論文 参考訳(メタデータ) (2026-02-24T07:23:28Z) - Can Deep Research Agents Find and Organize? Evaluating the Synthesis Gap with Expert Taxonomies [57.11324429385405]
72のコンピュータサイエンスサーベイから得られた診断ベンチマークであるTaxoBenchを紹介する。
我々は,3,815個の引用を根本的真理として正確に分類した分類木を手作業で抽出した。
ベストエージェントは、専門家が選択した論文の20.9%しかリコールせず、完璧なインプットであっても、最高のモデルは組織の0.31 ARIしか達成していない。
論文 参考訳(メタデータ) (2026-01-18T11:57:09Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。