論文の概要: Streamlining Systematic Reviews: A Novel Application of Large Language Models
- arxiv url: http://arxiv.org/abs/2412.15247v1
- Date: Sat, 14 Dec 2024 17:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-29 08:00:07.596049
- Title: Streamlining Systematic Reviews: A Novel Application of Large Language Models
- Title(参考訳): Streamlining Systematic Reviews: 大規模言語モデルの新たな応用
- Authors: Fouad Trad, Ryan Yammine, Jana Charafeddine, Marlene Chakhtoura, Maya Rahme, Ghada El-Hajj Fuleihan, Ali Chehab,
- Abstract要約: 体系的レビュー(SR)はエビデンスに基づくガイドラインに不可欠であるが、しばしば文学スクリーニングの時間的な性質によって制限される。
そこで本研究では,大言語モデル(LLM)をベースとした社内システムを提案し,その性能評価を行った。
- 参考スコア(独自算出の注目度): 1.921297555859566
- License:
- Abstract: Systematic reviews (SRs) are essential for evidence-based guidelines but are often limited by the time-consuming nature of literature screening. We propose and evaluate an in-house system based on Large Language Models (LLMs) for automating both title/abstract and full-text screening, addressing a critical gap in the literature. Using a completed SR on Vitamin D and falls (14,439 articles), the LLM-based system employed prompt engineering for title/abstract screening and Retrieval-Augmented Generation (RAG) for full-text screening. The system achieved an article exclusion rate (AER) of 99.5%, specificity of 99.6%, a false negative rate (FNR) of 0%, and a negative predictive value (NPV) of 100%. After screening, only 78 articles required manual review, including all 20 identified by traditional methods, reducing manual screening time by 95.5%. For comparison, Rayyan, a commercial tool for title/abstract screening, achieved an AER of 72.1% and FNR of 5% when including articles Rayyan considered as undecided or likely to include. Lowering Rayyan's inclusion thresholds improved FNR to 0% but increased screening time. By addressing both screening phases, the LLM-based system significantly outperformed Rayyan and traditional methods, reducing total screening time to 25.5 hours while maintaining high accuracy. These findings highlight the transformative potential of LLMs in SR workflows by offering a scalable, efficient, and accurate solution, particularly for the full-text screening phase, which has lacked automation tools.
- Abstract(参考訳): 体系的レビュー(SR)はエビデンスに基づくガイドラインに不可欠であるが、しばしば文学スクリーニングの時間的な性質によって制限される。
学術論文における重要なギャップを解消し,タイトル/サブトラクションとフルテキストスクリーニングの両方を自動化するLarge Language Models (LLMs) に基づく社内システムを提案し,評価する。
ヴィタミンDとフォールでSRが完成し(14,439記事)、LLMベースのシステムではタイトル/抽象スクリーニングとフルテキストスクリーニングにRAG(Retrieval-Augmented Generation)を使用した。
このシステムは99.5%の物品排他率(AER)、99.6%の特異性、0%の偽陰性率(FNR)、100%の負の予測値(NPV)を達成した。
スクリーニング後、従来の方法で特定された20のすべてを含む、手動によるレビューが必要になったのは78記事のみであり、手動によるスクリーニング時間を95.5%削減した。
比較のために、タイトル/アトラクション・スクリーニングの商用ツールであるRayyanは、未決定または含みそうな記事を含む場合、AERは72.1%、FNRは5%に達した。
レイヤンの包含しきい値の低下はFNRを0%に改善したが、スクリーニング時間は改善した。
両方のスクリーニングフェーズに対処することで、LLMベースのシステムはレイヤンと従来の手法を著しく上回り、高い精度を維持しながら全スクリーニング時間を25.5時間に短縮した。
これらの知見は、特に自動化ツールが欠如しているフルテキストスクリーニングフェーズにおいて、スケーラブルで効率的で正確なソリューションを提供することによって、SRワークフローにおけるLLMの変革の可能性を強調している。
関連論文リスト
- A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。
チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文 参考訳(メタデータ) (2024-10-25T14:07:53Z) - The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review [42.112100361891905]
本研究では,Large Language Models (LLMs) の科学的レビュー作成過程における使用法を要約することを目的とする。
我々は、現場における現在の最先端の研究プロジェクトを自動化し、評価できるレビューのステージの範囲について検討する。
論文 参考訳(メタデータ) (2024-09-06T20:12:57Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Automated Review Generation Method Based on Large Language Models [8.86304208754684]
大規模言語モデル(LLM)に基づく自動レビュー生成手法を提案する。
提案手法は高速に343項目を解析し,LLMアカウント1項目あたり平均秒を計測し,35項目にわたる総合的なレビューを行い,1041項目を拡張分析した。
論文 参考訳(メタデータ) (2024-07-30T15:26:36Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを51%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - Development and Testing of Retrieval Augmented Generation in Large
Language Models -- A Case Study Report [2.523433459887027]
Retrieval Augmented Generation (RAG)は、大規模言語モデル(LLM)におけるドメイン知識をカスタマイズするための有望なアプローチとして出現する。
LLM-RAGモデルを35の術前ガイドラインを用いて開発し,人為的反応に対して試験を行った。
このモデルでは平均15~20秒で回答が生成され、人間の要求する10分よりもはるかに速くなった。
論文 参考訳(メタデータ) (2024-01-29T06:49:53Z) - Zero-shot Generative Large Language Models for Systematic Review
Screening Automation [55.403958106416574]
本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。
本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
論文 参考訳(メタデータ) (2024-01-12T01:54:08Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z) - PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR
Error Correction [0.9502148118198473]
単語誤り率(WER)を低減する新しい非自己回帰的(NAR)アプローチであるPATCorrectを提案する。
PATCorrectは、様々な上流ASRシステムにおいて、英語コーパスにおける最先端のNAR法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-10T04:05:24Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。