論文の概要: SurveyEval: Towards Comprehensive Evaluation of LLM-Generated Academic Surveys
- arxiv url: http://arxiv.org/abs/2512.02763v1
- Date: Tue, 02 Dec 2025 13:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.896065
- Title: SurveyEval: Towards Comprehensive Evaluation of LLM-Generated Academic Surveys
- Title(参考訳): SurveyEval: LLMによるアカデミックサーベイの総合的評価に向けて
- Authors: Jiahao Zhao, Shuaixing Zhang, Nan Xu, Lei Wang,
- Abstract要約: SurveyEvalは、全体的な品質、アウトラインコヒーレンス、参照精度の3つの領域で自動生成されたサーベイを評価するベンチマークである。
評価対象を7項目に拡張し,評価・人的アライメントを強化するために,人的参照によるLLM-as-a-Judgeフレームワークを拡張した。
- 参考スコア(独自算出の注目度): 25.85280799022144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based automatic survey systems are transforming how users acquire information from the web by integrating retrieval, organization, and content synthesis into end-to-end generation pipelines. While recent works focus on developing new generation pipelines, how to evaluate such complex systems remains a significant challenge. To this end, we introduce SurveyEval, a comprehensive benchmark that evaluates automatically generated surveys across three dimensions: overall quality, outline coherence, and reference accuracy. We extend the evaluation across 7 subjects and augment the LLM-as-a-Judge framework with human references to strengthen evaluation-human alignment. Evaluation results show that while general long-text or paper-writing systems tend to produce lower-quality surveys, specialized survey-generation systems are able to deliver substantially higher-quality results. We envision SurveyEval as a scalable testbed to understand and improve automatic survey systems across diverse subjects and evaluation criteria.
- Abstract(参考訳): LLMベースの自動サーベイシステムは、検索、組織、コンテンツ合成をエンド・ツー・エンド・ジェネレーション・パイプラインに統合することで、ユーザがWebから情報を取得する方法を変えつつある。
最近の研究は、新しい世代のパイプラインの開発に重点を置いているが、そのような複雑なシステムをどのように評価するかは、依然として大きな課題である。
そこで本研究では,総合的品質,アウトラインコヒーレンス,参照精度の3次元にわたって自動生成されたサーベイを評価する総合的なベンチマークであるSurveyEvalを紹介する。
評価対象を7項目に拡張し,評価・人的アライメントを強化するために,人的参照によるLLM-as-a-Judgeフレームワークを拡張した。
評価結果から, 一般的な長文・紙筆記法では低品質なサーベイが生じる傾向にあるが, 専門的なサーベイジェネレーションシステムでは, かなり高品質な結果が得られることが示唆された。
多様な被験者を対象とした自動調査システムと評価基準の理解と改善を目的とした,スケーラブルなテストベッドとしてSurveyEvalを構想する。
関連論文リスト
- AutoSurvey2: Empowering Researchers with Next Level Automated Literature Surveys [10.50820843303237]
本稿では,多段パイプラインであるautosurvey2を提案する。
このシステムは並列セクションの生成、反復的洗練、最近の出版物のリアルタイム検索を統合し、トピックの完全性と事実の正確性を保証する。
実験の結果、Autosurvey2は既存の検索ベースと自動ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-10-29T22:57:03Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - SurveyGen: Quality-Aware Scientific Survey Generation with Large Language Models [14.855783196702191]
さまざまな科学的領域にわたる4,200以上の人手による調査からなる大規模データセットであるSurveyGenを提示する。
調査生成のための新しい品質認識フレームワークであるQUIL-SGを構築した。
論文 参考訳(メタデータ) (2025-08-25T04:22:23Z) - SGSimEval: A Comprehensive Multifaceted and Similarity-Enhanced Benchmark for Automatic Survey Generation Systems [26.888698710786507]
SGSimEvalは、Survey Generation with similarity-Enhanced Evaluationの包括的なベンチマークである。
我々は、人間に固有の品質と類似性の両方を強調する人間の嗜好指標を導入する。
実験の結果,現在のASGシステムはアウトライン生成において人間に比較可能な優位性を示すことがわかった。
論文 参考訳(メタデータ) (2025-08-15T08:27:58Z) - Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets [0.0]
近年,RAG(Retrieval-Augmented Generation)が著しく進歩している。
RAGの複雑さは、体系的な評価と品質向上に重大な課題をもたらす。
本研究は,63の学術論文を体系的にレビューし,最新のRAG評価手法を概観する。
論文 参考訳(メタデータ) (2025-04-28T08:22:19Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。