論文の概要: AutoSurvey2: Empowering Researchers with Next Level Automated Literature Surveys
- arxiv url: http://arxiv.org/abs/2510.26012v1
- Date: Wed, 29 Oct 2025 22:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.598318
- Title: AutoSurvey2: Empowering Researchers with Next Level Automated Literature Surveys
- Title(参考訳): AutoSurvey2: 次のレベルの自動文献調査で研究者を力づける
- Authors: Siyi Wu, Chiaxin Liang, Ziqian Bi, Leyi Zhao, Tianyang Wang, Junhao Song, Yichao Zhang, Keyu Chen, Xinyuan Song,
- Abstract要約: 本稿では,多段パイプラインであるautosurvey2を提案する。
このシステムは並列セクションの生成、反復的洗練、最近の出版物のリアルタイム検索を統合し、トピックの完全性と事実の正確性を保証する。
実験の結果、Autosurvey2は既存の検索ベースと自動ベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 10.50820843303237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of research literature, particularly in large language models (LLMs), has made producing comprehensive and current survey papers increasingly difficult. This paper introduces autosurvey2, a multi-stage pipeline that automates survey generation through retrieval-augmented synthesis and structured evaluation. The system integrates parallel section generation, iterative refinement, and real-time retrieval of recent publications to ensure both topical completeness and factual accuracy. Quality is assessed using a multi-LLM evaluation framework that measures coverage, structure, and relevance in alignment with expert review standards. Experimental results demonstrate that autosurvey2 consistently outperforms existing retrieval-based and automated baselines, achieving higher scores in structural coherence and topical relevance while maintaining strong citation fidelity. By combining retrieval, reasoning, and automated evaluation into a unified framework, autosurvey2 provides a scalable and reproducible solution for generating long-form academic surveys and contributes a solid foundation for future research on automated scholarly writing. All code and resources are available at https://github.com/annihi1ation/auto_research.
- Abstract(参考訳): 特に大規模言語モデル(LLM)における研究文献の急速な成長は、包括的かつ現在の調査論文の作成をますます困難にしている。
本稿では,多段パイプラインであるautosurvey2を提案する。
このシステムは並列セクションの生成、反復的洗練、最近の出版物のリアルタイム検索を統合し、トピックの完全性と事実の正確性を保証する。
品質は、専門家レビュー標準に沿ったカバレッジ、構造、関連性を測定するマルチLLM評価フレームワークを使用して評価される。
実験の結果, Autosurvey2 は既存の検索ベースと自動ベースラインを一貫して上回り, 強い引用の忠実さを維持しつつ, 構造的コヒーレンスと局所的関連性において高いスコアを得ることができた。
検索、推論、自動評価を統一されたフレームワークに組み合わせることで、Autosurvey2は、長期の学術的な調査を作成するためのスケーラブルで再現可能なソリューションを提供し、自動化された学術的な執筆に関する将来の研究のための確かな基盤に貢献する。
すべてのコードとリソースはhttps://github.com/annihi1ation/auto_researchで入手できる。
関連論文リスト
- Deep Literature Survey Automation with an Iterative Workflow [30.923568155892184]
我々のフレームワークは 再帰的なアウトライン生成に基づく 探索とコヒーレンスの両方を保証する
忠実な紙レベル接地を実現するため,各紙をその寄与,方法,発見に蒸留する紙カードを設計する。
確立されたトピックと新興トピックの両方の実験では、コンテンツカバレッジ、構造的コヒーレンス、引用品質の最先端のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2025-10-24T14:41:26Z) - LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation [66.09346158850308]
文献レビュープロセスをエミュレートする多エージェント協調ワークフローLiRA(Literature Review Agents)を提案する。
LiRAは、コンテンツアウトライン、サブセクションの執筆、編集、レビュー、コヒーシブで包括的なレビュー記事の作成に特殊エージェントを使用している。
実世界のシナリオにおいて文書検索を用いてLiRAを評価し,そのロバスト性を評価する。
論文 参考訳(メタデータ) (2025-10-01T12:14:28Z) - SurGE: A Benchmark and Evaluation Framework for Scientific Survey Generation [37.921524136479825]
SurGE(Survey Generation Evaluation)は、コンピュータ科学における科学的サーベイ生成の新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,(2)100万以上の論文からなる大規模学術コーパスを含む,一連のテストインスタンスから構成される。
さらに,4次元にわたって生成した調査の質を計測する自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing [13.101632066188532]
本研究では,人間の記述したアウトラインの論理構造を解析し,アウトラインを生成するサーベイサーベイForgeを紹介する。
総合的な評価を実現するために,100件の人書き調査論文を含むSurveyBenchを構築した。
実験では、SurveyはAutoSurveyのような以前の作業より優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-06T17:15:48Z) - AutoSurvey: Large Language Models Can Automatically Write Surveys [77.0458309675818]
本稿では,総合的な文献調査を自動作成する手法であるAutoSurveyを紹介する。
従来の調査論文は、膨大な量の情報と複雑さのために、課題に直面している。
我々の貢献には、調査問題に対する総合的な解決策、信頼性評価方法、AutoSurveyの有効性を実証する実験的な検証が含まれる。
論文 参考訳(メタデータ) (2024-06-10T12:56:06Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。
このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。