論文の概要: DeepSurvey-Bench: Evaluating Academic Value of Automatically Generated Scientific Survey
- arxiv url: http://arxiv.org/abs/2601.15307v1
- Date: Tue, 13 Jan 2026 14:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.338246
- Title: DeepSurvey-Bench: Evaluating Academic Value of Automatically Generated Scientific Survey
- Title(参考訳): DeepSurvey-Bench: 自動生成科学調査の学術的価値の評価
- Authors: Guo-Biao Zhang, Ding-Yuan Liu, Da-Yi Wu, Tian Lan, Heyan Huang, Zhijing Wu, Xian-Ling Mao,
- Abstract要約: DeepSurvey-Benchは、生成された調査の学術的価値を包括的に評価するために設計された、新しいベンチマークである。
学術的価値アノテーションを用いた信頼性のあるデータセットを構築し, 生成した調査の深い学術的価値を評価する。
- 参考スコア(独自算出の注目度): 53.85391477976017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of automated scientific survey generation technology has made it increasingly important to establish a comprehensive benchmark to evaluate the quality of generated surveys.Nearly all existing evaluation benchmarks rely on flawed selection criteria such as citation counts and structural coherence to select human-written surveys as the ground truth survey datasets, and then use surface-level metrics such as structural quality and reference relevance to evaluate generated surveys.However, these benchmarks have two key issues: (1) the ground truth survey datasets are unreliable because of a lack academic dimension annotations; (2) the evaluation metrics only focus on the surface quality of the survey such as logical coherence. Both issues lead to existing benchmarks cannot assess to evaluate their deep "academic value", such as the core research objectives and the critical analysis of different studies. To address the above problems, we propose DeepSurvey-Bench, a novel benchmark designed to comprehensively evaluate the academic value of generated surveys. Specifically, our benchmark propose a comprehensive academic value evaluation criteria covering three dimensions: informational value, scholarly communication value, and research guidance value. Based on this criteria, we construct a reliable dataset with academic value annotations, and evaluate the deep academic value of the generated surveys. Extensive experimental results demonstrate that our benchmark is highly consistent with human performance in assessing the academic value of generated surveys.
- Abstract(参考訳): 自動科学的サーベイ生成技術の急速な発展により、生成したサーベイの品質を評価するための総合的なベンチマークを確立することがますます重要になっているが、既存の評価ベンチマークは、引用数や構造的コヒーレンスなどの欠陥選択基準を基本真理サーベイデータセットとして採用し、次いで、構造的品質や基準関連性といった表面レベルの指標を用いて、生成されたサーベイを評価することが重要であるが、これらのベンチマークには、(1)学術的な側面のアノテーションが欠如していること、(2)論理的コヒーレンスのようなサーベイの表面品質にのみ注目すること、の2つの主要な課題がある。
どちらも既存のベンチマークでは、コア研究の目的や異なる研究の批判的分析など、彼らの深い「学術的価値」を評価することはできない。
以上の問題に対処するために,生成された調査の学術的価値を総合的に評価する新しいベンチマークであるDeepSurvey-Benchを提案する。
具体的には,情報的価値,学術的コミュニケーション価値,研究指導価値の3つの側面をカバーする総合的な学術的価値評価基準を提案する。
この基準に基づいて,学術的価値アノテーションを用いた信頼性のあるデータセットを構築し,生成した調査の深い学術的価値を評価する。
総合的な実験結果から,我々のベンチマークは,生成した調査の学術的価値を評価する上で,人的パフォーマンスと高い整合性を示した。
関連論文リスト
- Reward Modeling for Scientific Writing Evaluation [50.33952894976367]
多様なオープンエンドの科学的記述タスクを評価するために、確実にデプロイできるモデルを開発することが重要である。
本稿では,科学的執筆評価に適した費用効率の高いオープンソース報酬モデルを提案する。
論文 参考訳(メタデータ) (2026-01-16T15:32:58Z) - SurveyBench: Can LLM(-Agents) Write Academic Surveys that Align with Reader Needs? [37.28508850738341]
調査書は労働集約的で知的に要求されるタスクである。
一般的なDeepResearchエージェントやサーベイ特殊化手法のような最近のアプローチは、自動的にサーベイを生成することができる。
しかし、そのアウトプットは人間の基準に欠けることが多く、厳格で読者対応のベンチマークが欠けている。
本稿では,詳細なクイズ駆動評価フレームワークであるSurveyBenchを提案する。
論文 参考訳(メタデータ) (2025-10-03T15:49:09Z) - Towards Personalized Deep Research: Benchmarks and Evaluations [56.581105664044436]
我々は、Deep Research Agents(DRA)におけるパーソナライズ評価のための最初のベンチマークであるPersonalized Deep Research Benchを紹介する。
さまざまな研究タスク50と、構造化されたペルソナ属性と動的現実世界のコンテキストを組み合わせた25のユーザプロファイルを組み合わせ、250のリアルなユーザタスククエリを生成する。
さまざまなシステムの実験は、パーソナライズされたディープリサーチを扱う際の現在の能力と限界を強調します。
論文 参考訳(メタデータ) (2025-09-29T17:39:17Z) - SurveyGen: Quality-Aware Scientific Survey Generation with Large Language Models [14.855783196702191]
さまざまな科学的領域にわたる4,200以上の人手による調査からなる大規模データセットであるSurveyGenを提示する。
調査生成のための新しい品質認識フレームワークであるQUIL-SGを構築した。
論文 参考訳(メタデータ) (2025-08-25T04:22:23Z) - SurGE: A Benchmark and Evaluation Framework for Scientific Survey Generation [37.921524136479825]
SurGE(Survey Generation Evaluation)は、コンピュータ科学における科学的サーベイ生成の新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,(2)100万以上の論文からなる大規模学術コーパスを含む,一連のテストインスタンスから構成される。
さらに,4次元にわたって生成した調査の質を計測する自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks [87.29946641069068]
我々は,学術文献タスクの基礎モデルを評価するための,オープンで協調的なプラットフォームであるSciArenaを紹介する。
集合的知性を活用することで、SciArenaはコミュニティ主導の、オープンな科学的タスクにおけるモデルパフォーマンスの評価を提供する。
収集した嗜好データに基づいたメタ評価ベンチマークであるSciArena-Evalをリリースする。
論文 参考訳(メタデータ) (2025-07-01T17:51:59Z) - Evaluating Step-by-step Reasoning Traces: A Survey [8.279021694489462]
ステップバイステップ推論は、複雑な問題における大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
既存の評価プラクティスは非常に一貫性がなく、その結果、評価器の設計とベンチマーク開発の間に断片的な進歩をもたらす。
本調査は,4つのトップレベルカテゴリー(実効性,妥当性,一貫性,実用性)による評価基準の分類について提案する。
論文 参考訳(メタデータ) (2025-02-17T19:58:31Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。