論文の概要: SurveyX: Academic Survey Automation via Large Language Models
- arxiv url: http://arxiv.org/abs/2502.14776v1
- Date: Thu, 20 Feb 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:49.093027
- Title: SurveyX: Academic Survey Automation via Large Language Models
- Title(参考訳): SurveyX: 大規模言語モデルによる学術調査の自動化
- Authors: Xun Liang, Jiawei Yang, Yezhaohui Wang, Chen Tang, Zifan Zheng, Simin Niu, Shichao Song, Hanyu Wang, Bo Tang, Feiyu Xiong, Keming Mao, Zhiyu li,
- Abstract要約: SurveyXは、自動サーベイ生成のための効率的で組織化されたシステムである。
調査構成過程を, 準備と生成の2段階に分割する。
これは調査組成物の有効性を著しく向上させる。
- 参考スコア(独自算出の注目度): 23.142476414919653
- License:
- Abstract: Large Language Models (LLMs) have demonstrated exceptional comprehension capabilities and a vast knowledge base, suggesting that LLMs can serve as efficient tools for automated survey generation. However, recent research related to automated survey generation remains constrained by some critical limitations like finite context window, lack of in-depth content discussion, and absence of systematic evaluation frameworks. Inspired by human writing processes, we propose SurveyX, an efficient and organized system for automated survey generation that decomposes the survey composing process into two phases: the Preparation and Generation phases. By innovatively introducing online reference retrieval, a pre-processing method called AttributeTree, and a re-polishing process, SurveyX significantly enhances the efficacy of survey composition. Experimental evaluation results show that SurveyX outperforms existing automated survey generation systems in content quality (0.259 improvement) and citation quality (1.76 enhancement), approaching human expert performance across multiple evaluation dimensions. Examples of surveys generated by SurveyX are available on www.surveyx.cn
- Abstract(参考訳): 大規模言語モデル(LLM)は、例外的な理解能力と膨大な知識基盤を示し、LLMが自動サーベイ生成の効率的なツールとなることを示唆している。
しかし、最近の調査自動生成に関する研究は、有限コンテキストウィンドウ、詳細な内容の議論の欠如、体系的な評価フレームワークの欠如など、いくつかの限界に制約されているままである。
ヒトの筆記プロセスにインスパイアされたサーベイXは, 自動サーベイ生成のための効率的かつ組織化されたシステムであり, サーベイ構成プロセスは, 準備段階と生成段階の2つの段階に分けられる。
オンラインレファレンス検索,AttributeTreeと呼ばれる前処理方法,および再調査プロセスを導入することにより,サーベイXは,サーベイコンポジションの有効性を著しく向上させる。
実験結果から,SurveXはコンテンツ品質(0.259改善)と引用品質(1.76向上)において,既存の自動サーベイ生成システムよりも優れており,複数の評価次元にわたって人的専門家のパフォーマンスに接近していることがわかった。
SurveyXが作成した調査の例はwww.surveyx.cnで公開されている。
関連論文リスト
- AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - AutoSurvey: Large Language Models Can Automatically Write Surveys [77.0458309675818]
本稿では,総合的な文献調査を自動作成する手法であるAutoSurveyを紹介する。
従来の調査論文は、膨大な量の情報と複雑さのために、課題に直面している。
我々の貢献には、調査問題に対する総合的な解決策、信頼性評価方法、AutoSurveyの有効性を実証する実験的な検証が含まれる。
論文 参考訳(メタデータ) (2024-06-10T12:56:06Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Emerging Results on Automated Support for Searching and Selecting
Evidence for Systematic Literature Review Updates [1.1153433121962064]
本稿では,ソフトウェア工学におけるSLR更新研究の検索と選択を支援する自動手法について述べる。
我々は,機械学習(ML)アルゴリズムを用いて,雪玉探索技術を実行する自動化ツールのプロトタイプを開発し,SLR更新に関する関連する研究を選択することを支援する。
論文 参考訳(メタデータ) (2024-02-07T23:39:20Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - CSMeD: Bridging the Dataset Gap in Automated Citation Screening for
Systematic Literature Reviews [10.207938863784829]
CSMeDは9つの公開コレクションを統合したメタデータセットである。
CSMeDは自動引用スクリーニングモデルの性能を訓練し評価するための総合的なリソースとして機能する。
我々はCSMeD-FTを導入した。CSMeD-FTは、全文パブリッシュスクリーニングタスクを明示的に評価するために設計された新しいデータセットである。
論文 参考訳(メタデータ) (2023-11-21T09:36:11Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。