論文の概要: Deep Research Bench: Evaluating AI Web Research Agents
- arxiv url: http://arxiv.org/abs/2506.06287v1
- Date: Tue, 06 May 2025 15:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.424962
- Title: Deep Research Bench: Evaluating AI Web Research Agents
- Title(参考訳): Deep Research Bench: AI Webリサーチエージェントの評価
- Authors: FutureSearch, :, Nikos I. Bosse, Jon Evans, Robert G. Gambee, Daniel Hnyk, Peter Mühlbacher, Lawrence Phillips, Dan Schwarz, Jack Wildman,
- Abstract要約: 89のマルチステップWebリサーチタスクインスタンスからなるDeep Research Benchを紹介する。
大規模な凍結したWebページを備えた"RetroSearch"環境を提供し、オフラインの"RetroSearch"エージェントが"ライブWeb"エージェントと互換性を持って動作することを示す。
幻覚, 道具の使用, 忘れる際の経過を報告するために, 長いエージェントのトレースを自動的に評価する。
- 参考スコア(独自算出の注目度): 0.14980193397844666
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Amongst the most common use cases of modern AI is LLM chat with web search enabled. However, no direct evaluations of the quality of web research agents exist that control for the continually-changing web. We introduce Deep Research Bench, consisting of 89 multi-step web research task instances of varying difficulty across 8 diverse task categories, with the answers carefully worked out by skilled humans. We provide a "RetroSearch" environment with a large frozen set of scraped web pages, and demonstrate that offline "RetroSearch" agents perform comparably to "live web" agents, enabling reliable evaluations of models over time. We provide robust agent tooling and scaffolding to benchmark major LLMs as they are released, including "thinking" models like o3 and Gemini 2.5 Pro. We include automated evaluations of the lengthy agent traces to report progress over time in hallucinations, tool use, and forgetting. Finally, we evaluate the major web research products branded as "Deep Research", "Deep Search", "Search", or "Research." Results are available on a public leaderboard at https://drb.futuresearch.ai/.
- Abstract(参考訳): 現代のAIの最も一般的なユースケースは、Web検索を有効にしたLLMチャットである。
しかし、継続的に変化するウェブの制御を行うWebリサーチエージェントの質について直接評価することはない。
我々は8つのタスクカテゴリにまたがる難易度が異なる89段階のWebリサーチタスクインスタンスからなるDeep Research Benchを紹介する。
大規模な凍結したWebページを備えたRetroSearch環境を提供し、オフラインのRetroSearchエージェントが"ライブWeb"エージェントと互換性を持って動作し、時間とともにモデルの信頼性評価を可能にすることを実証する。
o3やGemini 2.5 Proのような"思考"モデルを含む、メジャーなLLMをベンチマークするために、堅牢なエージェントツーリングと足場を提供しています。
幻覚, 道具の使用, 忘れる際の経過を報告するために, 長いエージェントのトレースを自動的に評価する。
最後に、「ディープリサーチ」「ディープサーチ」「検索」「検索」とブランドされた主要なウェブリサーチ製品を評価した。
結果は、https://drb.futuresearch.ai/.comの公開リーダーボードで見ることができる。
関連論文リスト
- DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - EvolveSearch: An Iterative Self-Evolving Search Agent [98.18686493123785]
大規模言語モデル(LLM)は、検索エンジンやWebブラウザなどのツールを統合することで、エージェント情報検索機能を変革した。
本研究では,SFTとRLを組み合わせた新たな反復的自己進化フレームワークであるEvolveSearchを提案する。
論文 参考訳(メタデータ) (2025-05-28T15:50:48Z) - ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework [73.91207117772291]
ManuSearchは,大規模言語モデル(LLM)の深層検索を民主化するために設計された,透明でモジュール化されたマルチエージェントフレームワークである。
ManuSearchは検索と推論のプロセスを,(1)サブクエリを反復的に定式化するソリューション計画エージェント,(2)リアルタイムWeb検索を通じて関連文書を検索するインターネット検索エージェント,(3)生のWebコンテンツから重要な証拠を抽出する構造化Webページ読取エージェントの3つに分解する。
論文 参考訳(メタデータ) (2025-05-23T17:02:02Z) - Enhancing Web Agents with Explicit Rollback Mechanisms [55.276852838877346]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z) - An Illusion of Progress? Assessing the Current State of Web Agents [49.76769323750729]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。
結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。
オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文 参考訳(メタデータ) (2025-04-02T05:51:29Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。