論文の概要: Can large language models replace humans in the systematic review
process? Evaluating GPT-4's efficacy in screening and extracting data from
peer-reviewed and grey literature in multiple languages
- arxiv url: http://arxiv.org/abs/2310.17526v1
- Date: Thu, 26 Oct 2023 16:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:16:52.641651
- Title: Can large language models replace humans in the systematic review
process? Evaluating GPT-4's efficacy in screening and extracting data from
peer-reviewed and grey literature in multiple languages
- Title(参考訳): 大規模言語モデルは体系的レビュープロセスで人間に取って代わることができるか?
複数の言語におけるGPT-4によるピアレビューおよびグレー文学からのデータのスクリーニングと抽出の有効性の評価
- Authors: Qusai Khraisha, Sophie Put, Johanna Kappenberg, Azza Warraitch,
Kristin Hadfield
- Abstract要約: 本研究は, GPT-4のタイトル/サブトラクションスクリーニング, フルテキストレビュー, およびデータ抽出能力について, ヒューマン・アウト・オブ・ザ・ループ(Human-out-of-the-loop)アプローチを用いて評価した。
GPT-4は、ほとんどのタスクにおいて人間のパフォーマンスと同等の精度を持っていたが、結果は偶然の合意とデータセットの不均衡によって歪められた。
信頼性の高いプロンプトを用いたフルテキスト文学のスクリーニングでは、GPT-4の性能は「ほぼ完璧」であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systematic reviews are vital for guiding practice, research, and policy, yet
they are often slow and labour-intensive. Large language models (LLMs) could
offer a way to speed up and automate systematic reviews, but their performance
in such tasks has not been comprehensively evaluated against humans, and no
study has tested GPT-4, the biggest LLM so far. This pre-registered study
evaluates GPT-4's capability in title/abstract screening, full-text review, and
data extraction across various literature types and languages using a
'human-out-of-the-loop' approach. Although GPT-4 had accuracy on par with human
performance in most tasks, results were skewed by chance agreement and dataset
imbalance. After adjusting for these, there was a moderate level of performance
for data extraction, and - barring studies that used highly reliable prompts -
screening performance levelled at none to moderate for different stages and
languages. When screening full-text literature using highly reliable prompts,
GPT-4's performance was 'almost perfect.' Penalising GPT-4 for missing key
studies using highly reliable prompts improved its performance even more. Our
findings indicate that, currently, substantial caution should be used if LLMs
are being used to conduct systematic reviews, but suggest that, for certain
systematic review tasks delivered under reliable prompts, LLMs can rival human
performance.
- Abstract(参考訳): 体系的なレビューは実践、研究、政策の指導に不可欠であるが、それらはしばしば遅く、労働集約的である。
大きな言語モデル(LLM)は、体系的なレビューをスピードアップし、自動化する方法を提供するが、そのようなタスクにおけるそれらのパフォーマンスは、人間に対して包括的に評価されておらず、これまで最大のLCMであるGPT-4を試験した研究はない。
本研究は, "human-out-of-the-loop" アプローチを用いて, gpt-4のタイトル/アブストラクトスクリーニング, フルテキストレビュー, データ抽出における能力を評価する。
gpt-4は、ほとんどのタスクで人間のパフォーマンスに匹敵する精度を持っていたが、結果が偶然の一致とデータセットの不均衡によって歪んだ。
これらを調整した後、データ抽出のパフォーマンスは適度に低下し、高い信頼性を持つプロンプトスクリーニングパフォーマンスを用いた研究は、異なるステージや言語で適度に低下した。
信頼性の高いプロンプトを用いた全文文献のスクリーニングでは、GPT-4の性能は「ほぼ完璧」であった。
信頼性の高いプロンプトを用いた重要な研究の欠如に対するGPT-4の適用により、さらに性能が向上した。
この結果から,LLMを体系的レビューに使用した場合は,現在かなりの注意が必要であるが,信頼性の高いプロンプトで提供される特定の系統的レビュータスクに対して,LLMは人的パフォーマンスに匹敵する可能性があることが示唆された。
関連論文リスト
- An In-depth Evaluation of GPT-4 in Sentence Simplification with
Error-based Human Assessment [10.816677544269782]
我々は,GPT-4の単純化機能を評価するために,エラーベースのヒューマンアノテーションフレームワークを設計する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - Enhancing Robustness of LLM-Synthetic Text Detectors for Academic
Writing: A Comprehensive Analysis [35.351782110161025]
大規模言語モデル(LLM)は、仕事と研究の方法に革命をもたらす多くの利点を提供する。
彼らはまた、潜在的なネガティブな結果のために、かなりの注意を払っている。
1つの例は、人的貢献の少ない学術報告書や論文を作成することである。
論文 参考訳(メタデータ) (2024-01-16T01:58:36Z) - Zero-shot Generative Large Language Models for Systematic Review
Screening Automation [55.403958106416574]
本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。
本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
論文 参考訳(メタデータ) (2024-01-12T01:54:08Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - Large Language Models on Wikipedia-Style Survey Generation: an
Evaluation in NLP Concepts [21.853957046279533]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Large Language Models can be Guided to Evade AI-Generated Text Detection [43.20137621161661]
大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示し、一般に広く利用されている。
我々は、これらの検出器の脆弱性を評価するために、外部パラフレーズに頼るのではなく、LSMにプロンプトを付与する。
本研究では,検出器を回避するためのプロンプトを自動構築する,代用型In-Contextサンプル最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:03:25Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。