論文の概要: SurveyLens: A Research Discipline-Aware Benchmark for Automatic Survey Generation
- arxiv url: http://arxiv.org/abs/2602.11238v1
- Date: Wed, 11 Feb 2026 17:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.477813
- Title: SurveyLens: A Research Discipline-Aware Benchmark for Automatic Survey Generation
- Title(参考訳): SurveyLens: 自動サーベイ生成のための研究分野意識ベンチマーク
- Authors: Beichen Guo, Zhiyuan Wen, Jia Gu, Senzhang Wang, Haochen Shi, Ruosong Yang, Shuaiqi Liu,
- Abstract要約: 各種研究分野にまたがって自動サーベイジェネレーション(ASG)手法を評価する最初の規律対応ベンチマークであるSurveyLensを提案する。
我々は、LLM、ASGシステム、Deep Researchエージェントを含む11の最先端ASG手法をサーベイランスで評価して実験を行う。
- 参考スコア(独自算出の注目度): 31.710597049725163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth of scientific literature has driven the evolution of Automatic Survey Generation (ASG) from simple pipelines to multi-agent frameworks and commercial Deep Research agents. However, current ASG evaluation methods rely on generic metrics and are heavily biased toward Computer Science (CS), failing to assess whether ASG methods adhere to the distinct standards of various academic disciplines. Consequently, researchers, especially those outside CS, lack clear guidance on using ASG systems to yield high-quality surveys compliant with specific discipline standards. To bridge this gap, we introduce SurveyLens, the first discipline-aware benchmark evaluating ASG methods across diverse research disciplines. We construct SurveyLens-1k, a curated dataset of 1,000 high-quality human-written surveys spanning 10 disciplines. Subsequently, we propose a dual-lens evaluation framework: (1) Discipline-Aware Rubric Evaluation, which utilizes LLMs with human preference-aligned weights to assess adherence to domain-specific writing standards; and (2) Canonical Alignment Evaluation to rigorously measure content coverage and synthesis quality against human-written survey papers. We conduct extensive experiments by evaluating 11 state-of-the-art ASG methods on SurveyLens, including Vanilla LLMs, ASG systems, and Deep Research agents. Our analysis reveals the distinct strengths and weaknesses of each paradigm across fields, providing essential guidance for selecting tools tailored to specific disciplinary requirements.
- Abstract(参考訳): 科学文献の指数関数的な成長は、単純なパイプラインからマルチエージェントフレームワークや商用のディープリサーチエージェントへの自動サーベイ生成(ASG)の進化を促した。
しかし、現在のASG評価法は一般的なメトリクスに依存しており、計算機科学(CS)に大きく偏っているため、ASG法が様々な学術分野の異なる基準に適合するかどうかを判断できない。
その結果、研究者、特にCS外の研究者は、特定の規律基準に準拠した高品質な調査を行うためにASGシステムを使用するための明確なガイダンスを欠いている。
このギャップを埋めるために、様々な研究分野にまたがってASGの手法を評価する最初の規律を意識したベンチマークであるSurveyLensを紹介した。
SurveyLens-1kは、10の分野にまたがる高品質な人文調査1000件をキュレートしたデータセットである。
続いて,(1) LLMを人間の嗜好に合わせた重み付けで活用し,ドメイン固有の書面基準の遵守性を評価するディシプリナ・アウェア・ルーブリック・アセスメント,(2)コンテンツカバレッジと合成品質を人手による調査紙に対して厳格に評価するカノニカルアライメント・アライメント・アライメント・アセスメント・アセスメントを提案する。
我々は、Vanilla LLM、ASGシステム、Deep Researchエージェントを含む11の最先端ASG手法をサーベイランスで評価し、広範囲にわたる実験を行った。
本分析では,各分野における各パラダイムの長所と短所を明らかにするとともに,特定の学際要件に合わせたツールの選択に不可欠な指針を提供する。
関連論文リスト
- DeepSurvey-Bench: Evaluating Academic Value of Automatically Generated Scientific Survey [53.85391477976017]
DeepSurvey-Benchは、生成された調査の学術的価値を包括的に評価するために設計された、新しいベンチマークである。
学術的価値アノテーションを用いた信頼性のあるデータセットを構築し, 生成した調査の深い学術的価値を評価する。
論文 参考訳(メタデータ) (2026-01-13T14:42:56Z) - Dr.Mi-Bench: A Modular-integrated Benchmark for Scientific Deep Research Agent [52.876617746453995]
ミ・ベンチ博士(Dr.Mi-Bench)は、科学深層研究(DR)エージェントのためのモジュール統合ベンチマークである。
Dr.Mi-Evalはモジュラー統合評価パラダイムである。
論文 参考訳(メタデータ) (2025-11-30T17:16:47Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T15:12:58Z) - Can Agents Judge Systematic Reviews Like Humans? Evaluating SLRs with LLM-based Multi-Agent System [1.3052252174353483]
体系的文学レビュー(SLR)は証拠に基づく研究の基礎であるが、労働集約的であり、規律全体にわたって矛盾する傾向にある。
本稿では,マルチエージェントシステム(MAS)アーキテクチャ上に構築されたLLMに基づくSLR評価コラボロトについて,システム文献レビューの全体的な品質評価を支援する。
従来の単エージェント手法とは異なり、PRISMAガイドラインに適合する特殊なエージェントアプローチを統合し、より構造化され、解釈可能な評価を支援する。
論文 参考訳(メタデータ) (2025-09-21T21:17:23Z) - SurGE: A Benchmark and Evaluation Framework for Scientific Survey Generation [37.921524136479825]
SurGE(Survey Generation Evaluation)は、コンピュータ科学における科学的サーベイ生成の新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,(2)100万以上の論文からなる大規模学術コーパスを含む,一連のテストインスタンスから構成される。
さらに,4次元にわたって生成した調査の質を計測する自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - SGSimEval: A Comprehensive Multifaceted and Similarity-Enhanced Benchmark for Automatic Survey Generation Systems [26.888698710786507]
SGSimEvalは、Survey Generation with similarity-Enhanced Evaluationの包括的なベンチマークである。
我々は、人間に固有の品質と類似性の両方を強調する人間の嗜好指標を導入する。
実験の結果,現在のASGシステムはアウトライン生成において人間に比較可能な優位性を示すことがわかった。
論文 参考訳(メタデータ) (2025-08-15T08:27:58Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [30.603079363363634]
本研究では,学術調査における大規模言語モデルの能力を評価するためのベンチマークであるResearchArenaを紹介する。
ResearchArenaは,(1)情報発見,関連文献の同定,(2)情報選択,論文の関連性および影響評価,(3)情報組織という3段階のプロセスのモデル化を行う。
これらの評価を支援するために,12Mのフルテキスト学術論文と7.9Kの調査論文のオフライン環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。