論文の概要: SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing
- arxiv url: http://arxiv.org/abs/2503.04629v1
- Date: Thu, 06 Mar 2025 17:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:06.211562
- Title: SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing
- Title(参考訳): SurveyForge:自動調査作成のためのアウトラインヒューリスティックス,メモリ駆動生成,多次元評価について
- Authors: Xiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Bo Zhang, Lei Bai,
- Abstract要約: 本研究では,人間の記述したアウトラインの論理構造を解析し,アウトラインを生成するサーベイサーベイForgeを紹介する。
総合的な評価を実現するために,100件の人書き調査論文を含むSurveyBenchを構築した。
実験では、SurveyはAutoSurveyのような以前の作業より優れていることが示されている。
- 参考スコア(独自算出の注目度): 13.101632066188532
- License:
- Abstract: Survey paper plays a crucial role in scientific research, especially given the rapid growth of research publications. Recently, researchers have begun using LLMs to automate survey generation for better efficiency. However, the quality gap between LLM-generated surveys and those written by human remains significant, particularly in terms of outline quality and citation accuracy. To close these gaps, we introduce SurveyForge, which first generates the outline by analyzing the logical structure of human-written outlines and referring to the retrieved domain-related articles. Subsequently, leveraging high-quality papers retrieved from memory by our scholar navigation agent, SurveyForge can automatically generate and refine the content of the generated article. Moreover, to achieve a comprehensive evaluation, we construct SurveyBench, which includes 100 human-written survey papers for win-rate comparison and assesses AI-generated survey papers across three dimensions: reference, outline, and content quality. Experiments demonstrate that SurveyForge can outperform previous works such as AutoSurvey.
- Abstract(参考訳): 調査論文は、特に研究論文の急速な成長を考えると、科学研究において重要な役割を担っている。
近年、研究者はLLMを使用して、より効率的なサーベイ生成を自動化している。
しかし, LLMによる調査と人間による調査の質差は, 特にアウトラインの品質と引用精度の点で有意である。
これらのギャップを埋めるために、まず、人書きアウトラインの論理構造を分析し、検索したドメイン関連記事を参照してアウトラインを生成するSurveyForgeを紹介した。
その後,学習者ナビゲーションエージェントが記憶から取得した高品質な論文を活用することで,生成された記事の内容を自動生成し,精査することができる。
さらに、総合的な評価を実現するために、100件の人間による評価論文を含むサーベイベンチを構築し、参照、アウトライン、コンテンツ品質の3次元にわたるAIによる調査論文を評価した。
実験では、SurveyはAutoSurveyのような以前の作業より優れていることが示されている。
関連論文リスト
- SurveyX: Academic Survey Automation via Large Language Models [22.597703631935463]
SurveyXは、自動サーベイ生成のための効率的で組織化されたシステムである。
調査構成過程を, 準備と生成の2段階に分割する。
これは調査組成物の有効性を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-20T17:59:45Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Instruct Large Language Models to Generate Scientific Literature Survey Step by Step [21.149406605689297]
大規模言語モデル(LLM)を体系的に活用するプロンプトを設計する。
この設計はハイレベルの観点からの見出しの生成を可能にすると我々は主張する。
Qwen-long による実践は NLPCC 2024 で3位となった。
論文 参考訳(メタデータ) (2024-08-15T02:07:11Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [21.17856299966841]
本研究では,学術調査における大規模言語モデル(LLM)の評価のためのベンチマークであるResearchArenaを紹介する。
これらの機会を養うため、12万のフルテキスト学術論文と7.9Kのサーベイ論文の環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z) - AutoSurvey: Large Language Models Can Automatically Write Surveys [77.0458309675818]
本稿では,総合的な文献調査を自動作成する手法であるAutoSurveyを紹介する。
従来の調査論文は、膨大な量の情報と複雑さのために、課題に直面している。
我々の貢献には、調査問題に対する総合的な解決策、信頼性評価方法、AutoSurveyの有効性を実証する実験的な検証が含まれる。
論文 参考訳(メタデータ) (2024-06-10T12:56:06Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - An Empirical Survey on Long Document Summarization: Datasets, Models and
Metrics [33.655334920298856]
本稿では,長期文書要約研究の概要について概説する。
我々は、現在の研究の進展に対する視点を広げるために、実証分析を行う。
論文 参考訳(メタデータ) (2022-07-03T02:57:22Z) - Two Huge Title and Keyword Generation Corpora of Research Articles [0.0]
本稿では,テキスト要約(OAGSX)とキーワード生成(OAGKX)の2つの巨大なデータセットを紹介する。
データは、研究プロファイルと出版物のネットワークであるOpen Academic Graphから取得された。
より具体的な分野から研究論文のサブセットを導出するために、この2つの集合にトピックモデリングを適用したい。
論文 参考訳(メタデータ) (2020-02-11T21:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。