論文の概要: SurveyGen: Quality-Aware Scientific Survey Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2508.17647v1
- Date: Mon, 25 Aug 2025 04:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.626578
- Title: SurveyGen: Quality-Aware Scientific Survey Generation with Large Language Models
- Title(参考訳): SurveyGen: 大規模言語モデルによる品質意識の科学的サーベイ生成
- Authors: Tong Bao, Mir Tafseer Nayeem, Davood Rafiei, Chengzhi Zhang,
- Abstract要約: さまざまな科学的領域にわたる4,200以上の人手による調査からなる大規模データセットであるSurveyGenを提示する。
調査生成のための新しい品質認識フレームワークであるQUIL-SGを構築した。
- 参考スコア(独自算出の注目度): 14.855783196702191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic survey generation has emerged as a key task in scientific document processing. While large language models (LLMs) have shown promise in generating survey texts, the lack of standardized evaluation datasets critically hampers rigorous assessment of their performance against human-written surveys. In this work, we present SurveyGen, a large-scale dataset comprising over 4,200 human-written surveys across diverse scientific domains, along with 242,143 cited references and extensive quality-related metadata for both the surveys and the cited papers. Leveraging this resource, we build QUAL-SG, a novel quality-aware framework for survey generation that enhances the standard Retrieval-Augmented Generation (RAG) pipeline by incorporating quality-aware indicators into literature retrieval to assess and select higher-quality source papers. Using this dataset and framework, we systematically evaluate state-of-the-art LLMs under varying levels of human involvement - from fully automatic generation to human-guided writing. Experimental results and human evaluations show that while semi-automatic pipelines can achieve partially competitive outcomes, fully automatic survey generation still suffers from low citation quality and limited critical analysis.
- Abstract(参考訳): 科学的文書処理における重要な課題として,自動調査生成が登場している。
大規模言語モデル(LLM)は、調査テキストの生成において有望であることを示しているが、標準化された評価データセットの欠如は、人手による調査に対する彼らのパフォーマンスの厳密な評価を批判的に妨げている。
本研究では,4,200件以上の人文調査と,242,143件の参考文献と,対象論文の詳細な品質関連メタデータからなる大規模データセットであるSurveyGenを提案する。
文献検索に品質認識指標を組み込んで,高品質な資料を評価・選択することで,標準検索用RAG(Retrieval-Augmented Generation)パイプラインを向上する新しい品質認識フレームワークであるQUIL-SGを構築した。
このデータセットとフレームワークを用いて、完全自動生成から人間誘導書面に至るまで、さまざまなレベルの人間の関与の下で、最先端のLCMを体系的に評価する。
実験結果と人的評価から,セミオートマチックパイプラインは部分的に競争的な結果が得られるが,完全自動サーベイ生成は依然として低い引用品質と限定的臨界分析に悩まされていることが示された。
関連論文リスト
- Benchmarking Computer Science Survey Generation [18.844790013427282]
SurGE(Survey Generation Evaluation)は、コンピュータサイエンス領域における科学的サーベイ生成を評価するための新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,および参照参照の完全なセットを含む一連のテストインスタンスと,(2)検索プールとして機能する100万以上の論文からなる大規模学術コーパスから構成される。
さらに,情報カバレッジ,参照精度,構造組織,コンテンツ品質の4次元にわたる自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation [2.985620880452744]
SciSageはリフレクション・ワン・ユー・ライト・パラダイムを使ったマルチエージェント・フレームワークである。
アウトライン、セクション、ドキュメントレベルでのドラフトを批判的に評価し、クエリの解釈、コンテンツ検索、洗練のための特別なエージェントと協調する。
また、11のコンピュータサイエンス領域にわたる46のハイインパクト論文(2020-2025)のベンチマークであるSurveyScopeをリリースしています。
論文 参考訳(メタデータ) (2025-06-15T02:23:47Z) - SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing [13.101632066188532]
本研究では,人間の記述したアウトラインの論理構造を解析し,アウトラインを生成するサーベイサーベイForgeを紹介する。
総合的な評価を実現するために,100件の人書き調査論文を含むSurveyBenchを構築した。
実験では、SurveyはAutoSurveyのような以前の作業より優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-06T17:15:48Z) - SurveyX: Academic Survey Automation via Large Language Models [22.597703631935463]
SurveyXは、自動サーベイ生成のための効率的で組織化されたシステムである。
調査構成過程を, 準備と生成の2段階に分割する。
これは調査組成物の有効性を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-20T17:59:45Z) - What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Generative Models are Unsupervised Predictors of Page Quality: A
Colossal-Scale Study [86.62171568318716]
GPT-2のような大規模な生成言語モデルは、テキストを生成する能力で有名である。
ページ品質」の教師なし予測器が出現し、トレーニングなしで品質の低いコンテンツを検出することができることを示す。
われわれは5億件以上のウェブ記事の質的、定量的な分析を行い、このトピックについて史上最大規模の研究を行った。
論文 参考訳(メタデータ) (2020-08-17T07:13:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。