論文の概要: SESR-Eval: Dataset for Evaluating LLMs in the Title-Abstract Screening of Systematic Reviews
- arxiv url: http://arxiv.org/abs/2507.19027v1
- Date: Fri, 25 Jul 2025 07:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.860165
- Title: SESR-Eval: Dataset for Evaluating LLMs in the Title-Abstract Screening of Systematic Reviews
- Title(参考訳): SESR-Eval:システムレビューのタイトル抽象スクリーニングにおけるLCM評価データセット
- Authors: Aleksi Huotala, Miikka Kuutila, Mika Mäntylä,
- Abstract要約: 我々は,大言語モデル (LLM) の性能を評価するためのベンチマークデータセットを,体系的レビュー (SR) のタイトル別スクリーニングプロセスで作成する。
ソフトウェア工学(SE)ジャーナルに掲載された24の二次研究から,34,528のラベル付き一次研究を含むSESR-Evalデータセットを提案する。
我々のベンチマークは、ソフトウェア工学におけるSRのスクリーニングタスクにおけるAIパフォーマンスのモニタリングを可能にする。
- 参考スコア(独自算出の注目度): 0.9421843976231371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: The use of large language models (LLMs) in the title-abstract screening process of systematic reviews (SRs) has shown promising results, but suffers from limited performance evaluation. Aims: Create a benchmark dataset to evaluate the performance of LLMs in the title-abstract screening process of SRs. Provide evidence whether using LLMs in title-abstract screening in software engineering is advisable. Method: We start with 169 SR research artifacts and find 24 of those to be suitable for inclusion in the dataset. Using the dataset we benchmark title-abstract screening using 9 LLMs. Results: We present the SESR-Eval (Software Engineering Systematic Review Evaluation) dataset containing 34,528 labeled primary studies, sourced from 24 secondary studies published in software engineering (SE) journals. Most LLMs performed similarly and the differences in screening accuracy between secondary studies are greater than differences between LLMs. The cost of using an LLM is relatively low - less than $40 per secondary study even for the most expensive model. Conclusions: Our benchmark enables monitoring AI performance in the screening task of SRs in software engineering. At present, LLMs are not yet recommended for automating the title-abstract screening process, since accuracy varies widely across secondary studies, and no LLM managed a high recall with reasonable precision. In future, we plan to investigate factors that influence LLM screening performance between studies.
- Abstract(参考訳): 背景: 体系的レビュー (SR) のタイトル抽出スクリーニングプロセスにおける大規模言語モデル (LLM) の使用は, 有望な結果を示しているが, 限られた性能評価に悩まされている。
Aims: SRのタイトル抽出スクリーニングプロセスにおいて、LLMのパフォーマンスを評価するためのベンチマークデータセットを作成する。
LLMをソフトウェア工学の肩書き検診に使用することは推奨できる。
方法:169のSR研究アーティファクトから始め、データセットに含めるのに適した24のアーティファクトを見つけます。
データセットを使用して、9つのLLMを使用してタイトルとスコープのスクリーニングをベンチマークします。
結果:SeSR-Eval(Software Engineering Systematic Review Evaluation)データセットは,ソフトウェア工学(SE)ジャーナルに掲載された24のセカンダリ研究から得られた,34,528のラベル付き一次研究を含む。
ほとんどのLDMも同様に実行され、二次研究におけるスクリーニング精度の差はLSMの差よりも大きい。
LLMの使用コストは比較的低く、最も高価なモデルであっても、中等教育の1回あたり40ドル以下である。
結論:我々のベンチマークは、ソフトウェア工学におけるSRのスクリーニングタスクにおけるAIパフォーマンスの監視を可能にする。
現在、LLMは第2次研究において精度が大きく変化しており、適切な精度で高いリコールを行なわなかったため、タイトル抽出スクリーニングプロセスの自動化にはまだ推奨されていない。
今後,研究間のLLMスクリーニング性能に影響を与える要因について検討する。
関連論文リスト
- LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。
In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。
本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文 参考訳(メタデータ) (2025-04-21T11:11:07Z) - A Framework for Using LLMs for Repository Mining Studies in Empirical Software Engineering [12.504438766461027]
大規模言語モデル(LLM)は、ソフトウェアリポジトリを分析する革新的な方法を提供することで、ソフトウェア工学(SE)を変革した。
私たちの研究は、PRIMES(Prompt Refinement and Insights for Mining Empirical Software repository)というフレームワークをまとめています。
この結果,PRIMESの標準化により,LLMを用いた研究の信頼性と精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T06:08:57Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - The Promise and Challenges of Using LLMs to Accelerate the Screening Process of Systematic Reviews [7.030989629685138]
LLM(Large Language Models)は、人間のスクリーニングの抽象化を単純化することにより、タイトル・サブトラクションのスクリーニングを高速化する。
我々は,従来のシステムレビューのオリジナルと簡易の2つの要約を用いて,人間が20論文のタイトルと要約をスクリーニングする実験を行った。
また,異なるプロンプト技術 (Zero-shot (ZS), One-shot (OS), Few-shot (FS), Few-shot with Chain-of-Thought (FS-CoT)) がLCMのスクリーニング性能を向上させるかを検討した。
論文 参考訳(メタデータ) (2024-04-24T05:53:20Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Large Language Models for Software Engineering: A Systematic Literature Review [34.12458948051519]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)を含む多くの領域に大きな影響を与えている。
我々は、2017年1月から2024年1月までの395件の研究論文を選定、分析し、4つの重要な研究質問(RQ)に答える。
これらのRQに対する回答から、現在の最先端とトレンド、既存の研究のギャップの特定、今後の研究に向けた有望な領域のフラグ付けなどについて論じる。
論文 参考訳(メタデータ) (2023-08-21T10:37:49Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。