論文の概要: Deep Research Comparator: A Platform For Fine-grained Human Annotations of Deep Research Agents
- arxiv url: http://arxiv.org/abs/2507.05495v1
- Date: Mon, 07 Jul 2025 21:35:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.352147
- Title: Deep Research Comparator: A Platform For Fine-grained Human Annotations of Deep Research Agents
- Title(参考訳): Deep Research Comparator: ディープリサーチエージェントの細かいアノテーションのためのプラットフォーム
- Authors: Prahaladh Chandrahasan, Jiahe Jin, Zhihan Zhang, Tevin Wang, Andy Tang, Lucy Mo, Morteza Ziyadi, Leonardo F. R. Ribeiro, Zimeng Qiu, Markus Dreyer, Akari Asai, Chenyan Xiong,
- Abstract要約: 本稿では,ディープリサーチエージェントを評価するための総合的なフレームワークを提供するDeep Research Comparatorを紹介する。
ユーザクエリが与えられた場合、プラットフォームは2つの異なるエージェントからの最終的なレポートと、生成中の中間ステップを表示する。
アノテーションは、サイドバイサイド比較に基づいて最終レポートの全体的な品質を評価することができる。
- 参考スコア(独自算出の注目度): 30.401980824941003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively evaluating deep research agents that autonomously search the web, analyze information, and generate reports remains a major challenge, particularly when it comes to assessing long reports and giving detailed feedback on their intermediate steps. To address these gaps, we introduce Deep Research Comparator, a platform that offers a holistic framework for deep research agent hosting, side-by-side comparison, fine-grained human feedback collection, and ranking calculation. Given a user query, our platform displays the final reports from two different agents along with their intermediate steps during generation. Annotators can evaluate the overall quality of final reports based on side-by-side comparison, and also provide detailed feedback separately by assessing intermediate steps or specific text spans within the final report. Furthermore, we develop Simple Deepresearch, an end-to-end agent scaffold. This scaffold serves as a baseline that facilitates the easy integration of various large language models to transform them into deep research agents for evaluation. To demonstrate the platform's utility for deep research agent development, we have collected real user preference data from 17 annotators on three deep research agents. A demo video of our platform can be found at https://www.youtube.com/watch?v=g4d2dnbdseg.
- Abstract(参考訳): Webを自律的に検索し、情報を分析し、レポートを生成するディープリサーチエージェントを効果的に評価することは、特に長いレポートを評価し、中間ステップについて詳細なフィードバックを与える場合、大きな課題である。
これらのギャップに対処するために、ディープリサーチ比較(Deep Research Comparator)という、ディープリサーチエージェントホスティングのための総合的なフレームワーク、サイドバイサイド比較、きめ細かいフィードバック収集、ランキング計算を提供するプラットフォームを紹介した。
ユーザクエリが与えられた場合、プラットフォームは2つの異なるエージェントからの最終的なレポートと、生成中の中間ステップを表示する。
アノテーションは、サイドバイサイド比較に基づいて最終レポートの全体的な品質を評価することができ、また、最終レポート内の中間ステップまたは特定のテキストスパンを評価することによって、個別に詳細なフィードバックを提供する。
さらに,エンド・ツー・エンドのエージェント・スキャフォールドであるSimple Deepresearchを開発した。
この足場は、様々な大規模言語モデルの統合を容易にし、それらを評価のための深層研究エージェントに変換するためのベースラインとして機能する。
ディープリサーチエージェント開発におけるプラットフォームの有用性を実証するため,3つのディープリサーチエージェント上で17のアノテータから実際のユーザ嗜好データを収集した。
私たちのプラットフォームのデモビデオはhttps://www.youtube.com/watch?
v=g4d2dnbdseg。
関連論文リスト
- Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research [25.368303145176554]
DeepResearchGymはオープンソースのサンドボックスで、検索APIと、ディープリサーチシステムのベンチマークのための厳格な評価プロトコルを組み合わせる。
このAPIは大規模な公開Webコーパス、すなわちClueWeb22とFineWebをインデックスし、最先端の高密度検索器と、DikANNによる近接検索を使用する。
一般的な商用APIよりも低レイテンシを実現し、実行中の安定したドキュメントランキングを確保し、研究用に自由に利用できる。
論文 参考訳(メタデータ) (2025-05-25T18:16:13Z) - Decomposed Opinion Summarization with Verified Aspect-Aware Modules [82.38097397662436]
レビューの観点から,ドメインに依存しないモジュラーアプローチを提案する。
科学研究、ビジネス、製品ドメインを表すデータセットをまたいだ実験を行います。
論文 参考訳(メタデータ) (2025-01-27T09:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。