論文の概要: DR-Arena: an Automated Evaluation Framework for Deep Research Agents
- arxiv url: http://arxiv.org/abs/2601.10504v1
- Date: Thu, 15 Jan 2026 15:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.196602
- Title: DR-Arena: an Automated Evaluation Framework for Deep Research Agents
- Title(参考訳): DR-Arena:ディープリサーチエージェントのための自動評価フレームワーク
- Authors: Yiwen Gao, Ruochen Zhao, Yang Deng, Wenxuan Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、自律的な調査と情報合成が可能なディープリサーチ(DR)エージェントとしてますます運用されている。
現在のベンチマークは主に静的データセットに依存しており、タスクの汎用性、時間的ミスアライメント、データ汚染に悩まされている。
本稿では,DRエージェントを動的調査により能力限界まで押し上げる完全自動評価フレームワークであるDR-Arenaを紹介する。
- 参考スコア(独自算出の注目度): 35.99095633093855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) increasingly operate as Deep Research (DR) Agents capable of autonomous investigation and information synthesis, reliable evaluation of their task performance has become a critical bottleneck. Current benchmarks predominantly rely on static datasets, which suffer from several limitations: limited task generality, temporal misalignment, and data contamination. To address these, we introduce DR-Arena, a fully automated evaluation framework that pushes DR agents to their capability limits through dynamic investigation. DR-Arena constructs real-time Information Trees from fresh web trends to ensure the evaluation rubric is synchronized with the live world state, and employs an automated Examiner to generate structured tasks testing two orthogonal capabilities: Deep reasoning and Wide coverage. DR-Arena further adopts Adaptive Evolvement Loop, a state-machine controller that dynamically escalates task complexity based on real-time performance, demanding deeper deduction or wider aggregation until a decisive capability boundary emerges. Experiments with six advanced DR agents demonstrate that DR-Arena achieves a Spearman correlation of 0.94 with the LMSYS Search Arena leaderboard. This represents the state-of-the-art alignment with human preferences without any manual efforts, validating DR-Arena as a reliable alternative for costly human adjudication.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自律的な調査と情報合成が可能なディープリサーチ(DR)エージェントとしてますます運用されるようになり、そのタスク性能の信頼性評価が重要なボトルネックとなっている。
現在のベンチマークは主に静的データセットに依存しており、タスクの汎用性、時間的ミスアライメント、データ汚染など、いくつかの制限がある。
これらの問題に対処するために,DRエージェントを動的調査により能力限界にプッシュする完全自動評価フレームワークDR-Arenaを紹介する。
DR-Arenaは、新しいWebトレンドからリアルタイムのインフォメーションツリーを構築して、評価ルーリックが実世界状態と同期することを保証するとともに、自動化されたExaminerを使用して、2つの直交機能をテストする構造化タスクを生成する。
DR-Arenaはさらに、リアルタイムのパフォーマンスに基づいてタスクの複雑さを動的にエスカレートする状態マシンコントローラであるAdaptive Evolvement Loopを採用する。
6つの高度なDRエージェントによる実験では、DR-ArenaはLMSYS Search Arenaのリーダーボードと0.94のスピアマン相関を達成している。
DR-Arenaは、コストのかかる人間の判断の信頼できる代替品として有効である。
関連論文リスト
- Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (2025-12-23T16:32:27Z) - A Hierarchical Tree-based approach for creating Configurable and Static Deep Research Agent (Static-DRA) [0.0]
本稿では,階層木に基づく静的ワークフローに基づく新しいソリューションである静的ディープリサーチエージェント(Static-DRA)を紹介する。
コアコントリビューションは、DepthとBreadthという2つのユーザチューニング可能なパラメータの統合である。
エージェントのアーキテクチャは、スーパーバイザ、インディペンデント、およびWorkerエージェントで構成され、効果的なマルチホップ情報検索を促進する。
論文 参考訳(メタデータ) (2025-12-03T15:37:13Z) - Hierarchical Deep Research with Local-Web RAG: Toward Automated System-Level Materials Discovery [16.491889842339617]
複雑な材料やデバイス発見問題のための長期的階層的深層研究(DR)エージェント。
我々のフレームワークは、ローカルにデプロイ可能なDRインスタンスをインスタンス化し、ローカル検索拡張生成と大規模言語モデル推論を統合します。
大規模言語モデル (LLM-as-judge) を用いた27のナノマテリアル/デバイストピックに対して, Web 対応5つの最先端モデルを審査員として体系的に評価した。
論文 参考訳(メタデータ) (2025-11-23T05:57:42Z) - ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents [11.666923792025313]
Deep Research(DR)は、大規模言語モデルを活用して、オープンなクエリに対処する新興エージェントアプリケーションである。
我々はResearchRubricsを紹介します。これは2,800時間以上の人的労働時間で構築されたDRの標準ベンチマークです。
また,DRタスクを3つの軸(概念的幅,論理的ネスト,探索)に沿って分類する,新たな複雑性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-10T23:07:14Z) - GAPS: A Clinically Grounded, Automated Benchmark for Evaluating AI Clinicians [32.33432636089606]
AI臨床システムの現在のベンチマークは、実際の臨床実践に必要な深さ、堅牢性、安全性を捉えていない。
本稿では, GAPSフレームワーク, textbfGrounding (認識深度), textbfAdequacy (回答完全性), textbfPerturbation (損耗性), textbfSafetyを提案する。
GAPS準拠のベンチマークをエンドツーエンドに構築するための,完全自動化されたガイドライン変換パイプラインを開発した。
論文 参考訳(メタデータ) (2025-10-15T16:40:28Z) - Dynamic Data Pruning for Automatic Speech Recognition [58.95758272440217]
ASR(DDP-ASR)のダイナミック・データ・プルーニング(Dynamic Data Pruning for ASR)を導入し,音声関連データセットに特化して微細なプルーニングの粒度を提供する。
実験の結果,DDP-ASRは最大1.6倍のトレーニング時間を節約できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T14:17:36Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。