論文の概要: Can large language models replace humans in the systematic review
process? Evaluating GPT-4's efficacy in screening and extracting data from
peer-reviewed and grey literature in multiple languages
- arxiv url: http://arxiv.org/abs/2310.17526v1
- Date: Thu, 26 Oct 2023 16:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:16:52.641651
- Title: Can large language models replace humans in the systematic review
process? Evaluating GPT-4's efficacy in screening and extracting data from
peer-reviewed and grey literature in multiple languages
- Title(参考訳): 大規模言語モデルは体系的レビュープロセスで人間に取って代わることができるか?
複数の言語におけるGPT-4によるピアレビューおよびグレー文学からのデータのスクリーニングと抽出の有効性の評価
- Authors: Qusai Khraisha, Sophie Put, Johanna Kappenberg, Azza Warraitch,
Kristin Hadfield
- Abstract要約: 本研究は, GPT-4のタイトル/サブトラクションスクリーニング, フルテキストレビュー, およびデータ抽出能力について, ヒューマン・アウト・オブ・ザ・ループ(Human-out-of-the-loop)アプローチを用いて評価した。
GPT-4は、ほとんどのタスクにおいて人間のパフォーマンスと同等の精度を持っていたが、結果は偶然の合意とデータセットの不均衡によって歪められた。
信頼性の高いプロンプトを用いたフルテキスト文学のスクリーニングでは、GPT-4の性能は「ほぼ完璧」であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systematic reviews are vital for guiding practice, research, and policy, yet
they are often slow and labour-intensive. Large language models (LLMs) could
offer a way to speed up and automate systematic reviews, but their performance
in such tasks has not been comprehensively evaluated against humans, and no
study has tested GPT-4, the biggest LLM so far. This pre-registered study
evaluates GPT-4's capability in title/abstract screening, full-text review, and
data extraction across various literature types and languages using a
'human-out-of-the-loop' approach. Although GPT-4 had accuracy on par with human
performance in most tasks, results were skewed by chance agreement and dataset
imbalance. After adjusting for these, there was a moderate level of performance
for data extraction, and - barring studies that used highly reliable prompts -
screening performance levelled at none to moderate for different stages and
languages. When screening full-text literature using highly reliable prompts,
GPT-4's performance was 'almost perfect.' Penalising GPT-4 for missing key
studies using highly reliable prompts improved its performance even more. Our
findings indicate that, currently, substantial caution should be used if LLMs
are being used to conduct systematic reviews, but suggest that, for certain
systematic review tasks delivered under reliable prompts, LLMs can rival human
performance.
- Abstract(参考訳): 体系的なレビューは実践、研究、政策の指導に不可欠であるが、それらはしばしば遅く、労働集約的である。
大きな言語モデル(LLM)は、体系的なレビューをスピードアップし、自動化する方法を提供するが、そのようなタスクにおけるそれらのパフォーマンスは、人間に対して包括的に評価されておらず、これまで最大のLCMであるGPT-4を試験した研究はない。
本研究は, "human-out-of-the-loop" アプローチを用いて, gpt-4のタイトル/アブストラクトスクリーニング, フルテキストレビュー, データ抽出における能力を評価する。
gpt-4は、ほとんどのタスクで人間のパフォーマンスに匹敵する精度を持っていたが、結果が偶然の一致とデータセットの不均衡によって歪んだ。
これらを調整した後、データ抽出のパフォーマンスは適度に低下し、高い信頼性を持つプロンプトスクリーニングパフォーマンスを用いた研究は、異なるステージや言語で適度に低下した。
信頼性の高いプロンプトを用いた全文文献のスクリーニングでは、GPT-4の性能は「ほぼ完璧」であった。
信頼性の高いプロンプトを用いた重要な研究の欠如に対するGPT-4の適用により、さらに性能が向上した。
この結果から,LLMを体系的レビューに使用した場合は,現在かなりの注意が必要であるが,信頼性の高いプロンプトで提供される特定の系統的レビュータスクに対して,LLMは人的パフォーマンスに匹敵する可能性があることが示唆された。
関連論文リスト
- An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。
本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文 参考訳(メタデータ) (2024-08-31T07:10:16Z) - Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews [7.355182982314533]
大規模言語モデル(LLM)は、文献レビューフィルタリングの効率、速度、精度を高めるために用いられる。
単純なプロンプトによる高度なLCMを用いることで,文学的なフィルタリングに要する時間を大幅に削減できることを示す。
また、偽陰性は実際にコンセンサス・スキームによって制御でき、通常の人間のエラー・しきい値の98.8%以上のリコールを達成できることを示す。
論文 参考訳(メタデータ) (2024-07-15T12:13:53Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts [21.150221839202878]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。
本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文 参考訳(メタデータ) (2023-05-23T18:17:43Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。