論文の概要: Large language models streamline automated systematic review: A preliminary study
- arxiv url: http://arxiv.org/abs/2502.15702v1
- Date: Thu, 09 Jan 2025 01:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 05:26:10.283654
- Title: Large language models streamline automated systematic review: A preliminary study
- Title(参考訳): 大規模言語モデルによる自動体系的レビューの合理化 : 予備的検討
- Authors: Xi Chen, Xue Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理タスクにおいて、体系的なレビューを自動化する可能性を秘めている。
本研究は,3つのLLMの系統的レビュー作業における性能評価である。
- 参考スコア(独自算出の注目度): 12.976248955642037
- License:
- Abstract: Large Language Models (LLMs) have shown promise in natural language processing tasks, with the potential to automate systematic reviews. This study evaluates the performance of three state-of-the-art LLMs in conducting systematic review tasks. We assessed GPT-4, Claude-3, and Mistral 8x7B across four systematic review tasks: study design formulation, search strategy development, literature screening, and data extraction. Sourced from a previously published systematic review, we provided reference standard including standard PICO (Population, Intervention, Comparison, Outcome) design, standard eligibility criteria, and data from 20 reference literature. Three investigators evaluated the quality of study design and eligibility criteria using 5-point Liker Scale in terms of accuracy, integrity, relevance, consistency and overall performance. For other tasks, the output is defined as accurate if it is the same as the reference standard. Search strategy performance was evaluated through accuracy and retrieval efficacy. Screening accuracy was assessed for both abstracts screening and full texts screening. Data extraction accuracy was evaluated across 1,120 data points comprising 3,360 individual fields. Claude-3 demonstrated superior overall performance in PICO design. In search strategy formulation, GPT-4 and Claude-3 achieved comparable accuracy, outperforming Mistral. For abstract screening, GPT-4 achieved the highest accuracy, followed by Mistral and Claude-3. In data extraction, GPT-4 significantly outperformed other models. LLMs demonstrate potential for automating systematic review tasks, with GPT-4 showing superior performance in search strategy formulation, literature screening and data extraction. These capabilities make them promising assistive tools for researchers and warrant further development and validation in this field.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理タスクにおいて、体系的なレビューを自動化する可能性を秘めている。
本研究は,3つのLLMの系統的レビュー作業における性能評価である。
GPT-4, Claude-3, Mistral 8x7Bの4つの体系的評価課題について検討した。
先程公表された体系的なレビューから,標準PICO(Population, Intervention, Comparison, Outcome)設計,標準適格基準,20文献のデータなどの参照標準を提供した。
3人の研究者が5点類似尺度を用いて, 精度, 完全性, 妥当性, 整合性, 全体的な性能について, 研究の質と適性基準を評価した。
他のタスクでは、出力が参照標準と同じである場合、正確に定義されます。
検索戦略の性能は,精度と検索効率で評価した。
要約検診と全文検診で検診精度を評価した。
データ抽出精度を3,360個のフィールドからなる1,120個のデータポイントで評価した。
クロード3はPICO設計においてより優れた性能を示した。
探索戦略の定式化において、GPT-4とClaude-3はミストラルよりも精度が優れていた。
抽象スクリーニングでは GPT-4 が最も精度が高く、Mistral と Claude-3 が続いた。
データ抽出において、GPT-4は他のモデルよりも大幅に優れていた。
LLMは、検索戦略の定式化、文献のスクリーニング、データ抽出において優れた性能を示すGPT-4を用いて、体系的なレビュータスクを自動化する可能性を実証している。
これらの能力は、研究者に有望な支援ツールを提供し、この分野におけるさらなる開発と検証を保証します。
関連論文リスト
- Empirical evaluation of LLMs in predicting fixes of Configuration bugs in Smart Home System [0.0]
本研究では,スマートホームシステムにおける構成バグの修正予測におけるLarge Language Models (LLMs)の有効性を評価する。
この研究は、GPT-4、GPT-4o(GPT-4 Turbo)、Claude 3.5 Sonnetの3つの著名なLCMを分析した。
論文 参考訳(メタデータ) (2025-02-16T02:11:36Z) - Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery [23.773528748933934]
44の査読論文から4つの分野の102の課題を抽出し,9つの課題の専門家による検証を行った。
我々は、各タスクのターゲット出力を、自己完結型のPythonプログラムファイルに統一する。
データ汚染の懸念を軽減するための2つの効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:33:50Z) - AI based Multiagent Approach for Requirements Elicitation and Analysis [3.9422957660677476]
本研究では,大規模言語モデル(LLM)を用いた要求分析タスクの自動化の有効性を実証的に検討する。
我々は,GPT-3.5,GPT-4 Omni,LLaMA3-70,Mixtral-8Bの4つのモデルをデプロイし,実世界の4つのプロジェクトにおける要件を分析する実験を行った。
予備的な結果は,各モデルにおけるタスク完了の顕著な変化を示している。
論文 参考訳(メタデータ) (2024-08-18T07:23:12Z) - Zero-shot Generative Large Language Models for Systematic Review
Screening Automation [55.403958106416574]
本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。
本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
論文 参考訳(メタデータ) (2024-01-12T01:54:08Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Can large language models replace humans in the systematic review
process? Evaluating GPT-4's efficacy in screening and extracting data from
peer-reviewed and grey literature in multiple languages [0.0]
本研究は, GPT-4のタイトル/サブトラクションスクリーニング, フルテキストレビュー, およびデータ抽出能力について, ヒューマン・アウト・オブ・ザ・ループ(Human-out-of-the-loop)アプローチを用いて評価した。
GPT-4は、ほとんどのタスクにおいて人間のパフォーマンスと同等の精度を持っていたが、結果は偶然の合意とデータセットの不均衡によって歪められた。
信頼性の高いプロンプトを用いたフルテキスト文学のスクリーニングでは、GPT-4の性能は「ほぼ完璧」であった。
論文 参考訳(メタデータ) (2023-10-26T16:18:30Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。