論文の概要: SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?
- arxiv url: http://arxiv.org/abs/2510.03120v1
- Date: Fri, 03 Oct 2025 15:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.46604
- Title: SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?
- Title(参考訳): SurveyBench: LLM(-Agents)はどの程度学術的な調査を書けるか?
- Authors: Zhaojun Sun, Xuzhou Zhu, Xuanhe Zhou, Xin Tong, Shuo Wang, Jie Fu, Guoliang Li, Zhiyuan Liu, Fan Wu,
- Abstract要約: 調査書は労働集約的で知的に要求されるタスクである。
一般的なDeepResearchエージェントやサーベイ特殊化手法のような最近のアプローチは、自動的にサーベイを生成することができる。
しかし、そのアウトプットは人間の基準に欠けることが多く、厳格で読者対応のベンチマークが欠けている。
本稿では,詳細なクイズ駆動評価フレームワークであるSurveyBenchを提案する。
- 参考スコア(独自算出の注目度): 37.28508850738341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Academic survey writing, which distills vast literature into a coherent and insightful narrative, remains a labor-intensive and intellectually demanding task. While recent approaches, such as general DeepResearch agents and survey-specialized methods, can generate surveys automatically (a.k.a. LLM4Survey), their outputs often fall short of human standards and there lacks a rigorous, reader-aligned benchmark for thoroughly revealing their deficiencies. To fill the gap, we propose a fine-grained, quiz-driven evaluation framework SurveyBench, featuring (1) typical survey topics source from recent 11,343 arXiv papers and corresponding 4,947 high-quality surveys; (2) a multifaceted metric hierarchy that assesses the outline quality (e.g., coverage breadth, logical coherence), content quality (e.g., synthesis granularity, clarity of insights), and non-textual richness; and (3) a dual-mode evaluation protocol that includes content-based and quiz-based answerability tests, explicitly aligned with readers' informational needs. Results show SurveyBench effectively challenges existing LLM4Survey approaches (e.g., on average 21% lower than human in content-based evaluation).
- Abstract(参考訳): 膨大な文献を一貫性と洞察に富んだ物語に蒸留する学術調査の執筆は、労働集約的で知的に要求される課題である。
一般のDeepResearchエージェントや調査特化メソッドのような最近のアプローチでは、自動的にサーベイ(LLM4Survey)を生成することができるが、そのアウトプットは人間の基準に反することが多く、その欠陥を徹底的に明らかにするための厳密な読者整合ベンチマークがない。
このギャップを埋めるために,(1)最近の11,343件のarXiv論文およびそれに対応する4,947件の高品質調査から得られた典型的な調査トピック,(2)アウトライン品質(例えば,範囲幅,論理コヒーレンス),コンテンツ品質(例えば,合成粒度,洞察の明確さ),および非テキストリッチ性を評価する多面的計量階層,(3)コンテンツベースおよびクイズベースの応答性テストを含むデュアルモード評価プロトコルを提案する。
その結果,既存のLCM4Surveyアプローチ(コンテンツベース評価では人間よりも平均21%低い)に対して,Surveyは効果的に挑戦していることがわかった。
関連論文リスト
- Benchmarking Computer Science Survey Generation [18.844790013427282]
SurGE(Survey Generation Evaluation)は、コンピュータサイエンス領域における科学的サーベイ生成を評価するための新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,および参照参照の完全なセットを含む一連のテストインスタンスと,(2)検索プールとして機能する100万以上の論文からなる大規模学術コーパスから構成される。
さらに,情報カバレッジ,参照精度,構造組織,コンテンツ品質の4次元にわたる自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。
オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。
結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-19T21:11:11Z) - SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation [2.985620880452744]
SciSageはリフレクション・ワン・ユー・ライト・パラダイムを使ったマルチエージェント・フレームワークである。
アウトライン、セクション、ドキュメントレベルでのドラフトを批判的に評価し、クエリの解釈、コンテンツ検索、洗練のための特別なエージェントと協調する。
また、11のコンピュータサイエンス領域にわたる46のハイインパクト論文(2020-2025)のベンチマークであるSurveyScopeをリリースしています。
論文 参考訳(メタデータ) (2025-06-15T02:23:47Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [30.603079363363634]
本研究では,学術調査における大規模言語モデルの能力を評価するためのベンチマークであるResearchArenaを紹介する。
ResearchArenaは,(1)情報発見,関連文献の同定,(2)情報選択,論文の関連性および影響評価,(3)情報組織という3段階のプロセスのモデル化を行う。
これらの評価を支援するために,12Mのフルテキスト学術論文と7.9Kの調査論文のオフライン環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。