論文の概要: Evaluation Sheet for Deep Research: A Use Case for Academic Survey Writing
- arxiv url: http://arxiv.org/abs/2510.01283v1
- Date: Tue, 30 Sep 2025 21:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.787132
- Title: Evaluation Sheet for Deep Research: A Use Case for Academic Survey Writing
- Title(参考訳): ディープリサーチのための評価シート:学術調査書記のユースケース
- Authors: Israel Abebe Azime, Tadesse Destaw Belay, Atnafu Lambebo Tonja,
- Abstract要約: 本稿では,Deep Researchツールの能力を評価するための評価シートについて紹介する。
以上の結果から,評価基準を慎重に策定する必要性が示唆された。
- 参考スコア(独自算出の注目度): 4.470043843433362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) powered with argentic capabilities are able to do knowledge-intensive tasks without human involvement. A prime example of this tool is Deep research with the capability to browse the web, extract information and generate multi-page reports. In this work, we introduce an evaluation sheet that can be used for assessing the capability of Deep Research tools. In addition, we selected academic survey writing as a use case task and evaluated output reports based on the evaluation sheet we introduced. Our findings show the need to have carefully crafted evaluation standards. The evaluation done on OpenAI`s Deep Search and Google's Deep Search in generating an academic survey showed the huge gap between search engines and standalone Deep Research tools, the shortcoming in representing the targeted area.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間の関与なしに知識集約的なタスクを実行できる。
このツールの主な例は、Webを閲覧し、情報を抽出し、複数ページのレポートを生成する機能を備えたDeep Researchである。
本研究では,Deep Researchツールの能力評価に使用できる評価シートを提案する。
また,ケースタスクとして学術調査書を選定し,導入した評価表に基づいて評価結果を評価した。
以上の結果から,評価基準を慎重に策定する必要性が示唆された。
OpenAIのDeep SearchとGoogleのDeep Searchで行った学術調査では、検索エンジンとスタンドアロンのDeep Researchツールの間に大きなギャップがあり、ターゲットとする領域を表現できないことが示されている。
関連論文リスト
- Towards Personalized Deep Research: Benchmarks and Evaluations [56.581105664044436]
我々は、Deep Research Agents(DRA)におけるパーソナライズ評価のための最初のベンチマークであるPersonalized Deep Research Benchを紹介する。
さまざまな研究タスク50と、構造化されたペルソナ属性と動的現実世界のコンテキストを組み合わせた25のユーザプロファイルを組み合わせ、250のリアルなユーザタスククエリを生成する。
さまざまなシステムの実験は、パーソナライズされたディープリサーチを扱う際の現在の能力と限界を強調します。
論文 参考訳(メタデータ) (2025-09-29T17:39:17Z) - Benchmarking Computer Science Survey Generation [18.844790013427282]
SurGE(Survey Generation Evaluation)は、コンピュータサイエンス領域における科学的サーベイ生成を評価するための新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,および参照参照の完全なセットを含む一連のテストインスタンスと,(2)検索プールとして機能する100万以上の論文からなる大規模学術コーパスから構成される。
さらに,情報カバレッジ,参照精度,構造組織,コンテンツ品質の4次元にわたる自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks [14.371010711040304]
ReportBenchは、大規模言語モデル(LLM)によって生成された研究レポートの内容品質を評価するために設計されたベンチマークである。
本評価は,(1)引用文献の質と妥当性,(2)報告内容の忠実さと妥当性の2つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-14T03:33:43Z) - Characterizing Deep Research: A Benchmark and Formal Definition [24.523394260858822]
本稿では,Deep Research (DR) タスクの形式的特徴付けと,DRシステムの性能評価のためのベンチマークを提案する。
ディープリサーチのコアとなる特徴は、レポートスタイルのアウトプットの生成ではなく、検索プロセスで必要となる概念に対する高いファンアウトである、と我々は主張する。
論文 参考訳(メタデータ) (2025-08-06T08:09:28Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [30.603079363363634]
本研究では,学術調査における大規模言語モデルの能力を評価するためのベンチマークであるResearchArenaを紹介する。
ResearchArenaは,(1)情報発見,関連文献の同定,(2)情報選択,論文の関連性および影響評価,(3)情報組織という3段階のプロセスのモデル化を行う。
これらの評価を支援するために,12Mのフルテキスト学術論文と7.9Kの調査論文のオフライン環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。