論文の概要: High-performance automated abstract screening with large language model ensembles
- arxiv url: http://arxiv.org/abs/2411.02451v1
- Date: Sun, 03 Nov 2024 10:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:20.610423
- Title: High-performance automated abstract screening with large language model ensembles
- Title(参考訳): 大規模言語モデルアンサンブルを用いた高速自動抽象スクリーニング
- Authors: Rohan Sanghera, Arun James Thirunavukarasu, Marc El Khoury, Jessica O'Logbon, Yuqing Chen, Archie Watt, Mustafa Mahmood, Hamid Butt, George Nishimura, Andrew Soltan,
- Abstract要約: 大規模言語モデル(LLM)は入力テキストの処理と解釈を必要とするタスクに優れる。
抽象スクリーニングは、包括的および排他的基準の繰り返し適用を含む体系的レビューの労働集約的な構成要素である。
800レコードのサブセットに対する試行では、最適なプロンプト戦略を特定し、人間の研究者にとって優れたパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 0.9362620873652917
- License:
- Abstract: Large language models (LLMs) excel in tasks requiring processing and interpretation of input text. Abstract screening is a labour-intensive component of systematic review involving repetitive application of inclusion and exclusion criteria on a large volume of studies identified by a literature search. Here, LLMs (GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o, Llama 3 70B, Gemini 1.5 Pro, and Claude Sonnet 3.5) were trialled on systematic reviews in a full issue of the Cochrane Library to evaluate their accuracy in zero-shot binary classification for abstract screening. Trials over a subset of 800 records identified optimal prompting strategies and demonstrated superior performance of LLMs to human researchers in terms of sensitivity (LLMmax = 1.000, humanmax = 0.775), precision (LLMmax = 0.927, humanmax = 0.911), and balanced accuracy (LLMmax = 0.904, humanmax = 0.865). The best performing LLM-prompt combinations were trialled across every replicated search result (n = 119,691), and exhibited consistent sensitivity (range 0.756-1.000) but diminished precision (range 0.004-0.096). 66 LLM-human and LLM-LLM ensembles exhibited perfect sensitivity with a maximal precision of 0.458, with less observed performance drop in larger trials. Significant variation in performance was observed between reviews, highlighting the importance of domain-specific validation before deployment. LLMs may reduce the human labour cost of systematic review with maintained or improved accuracy and sensitivity. Systematic review is the foundation of evidence-based medicine, and LLMs can contribute to increasing the efficiency and quality of this mode of research.
- Abstract(参考訳): 大規模言語モデル(LLM)は入力テキストの処理と解釈を必要とするタスクに優れる。
抽象的スクリーニングは、文献検索によって特定される大量の研究に対して、包括的および排除基準の繰り返し適用を含む体系的レビューの労働集約的な構成要素である。
ここで、LLM (GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o, Llama 3 70B, Gemini 1.5 Pro, Claude Sonnet 3.5) はコクラン図書館の全号で体系的なレビューを行い、その精度をゼロショットバイナリ分類で評価した。
800レコードのサブセットに対する試行では、最適なプロンプト戦略を特定し、感度(LLMmax = 1.000, humanmax = 0.775)、精度(LLMmax = 0.927, humanmax = 0.911)、精度(LLMmax = 0.904, humanmax = 0.865)の点でLLMの優れた性能を示した。
LLM-promptの最良の組み合わせは、すべての複製された検索結果(n = 119,691)で試行され、一貫した感度(0.756-1.000の範囲)を示したが、精度(0.004-0.096範囲)は低下した。
66 LLM- Human と LLM-LLM のアンサンブルは最大精度0.458で完全な感度を示し、より大きな試験では性能低下が観測されなかった。
レビュー間で重要なパフォーマンスの変化が観察され、デプロイ前にドメイン固有の検証の重要性が強調された。
LLMは、正確さと感度を維持したり改善したりすることで、体系的なレビューの人件費を削減できる。
体系的レビューはエビデンスベースの医療の基盤であり、LCMは、この研究様式の効率性と品質の向上に寄与することができる。
関連論文リスト
- LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Large Language Models versus Classical Machine Learning: Performance in COVID-19 Mortality Prediction Using High-Dimensional Tabular Data [0.0]
本研究の目的は、新型コロナウイルスによる死亡率の予測において、古典的機械学習モデル(CML)と大規模言語モデル(LLM)のパフォーマンスを評価し、比較することである。
我々は4つの病院で収集された9,134人の新型コロナウイルス患者のデータを分析した。
論文 参考訳(メタデータ) (2024-09-02T14:51:12Z) - LLM-based MOFs Synthesis Condition Extraction using Few-Shot Demonstrations [31.35595673239483]
我々は,大規模言語モデル (LLM) を用いた既存の合成抽出手法のほとんどは,原始的なゼロショット学習に留まっていると論じる。
本稿では,人間とAIの合同データキュレーションプロセスを提案する。
84,898個のよく定義されたMOFからランダムにサンプリングされたデータセット上で、提案手法はF1の性能をはるかに高い精度で達成する。
論文 参考訳(メタデータ) (2024-08-06T14:53:25Z) - Automated Review Generation Method Based on Large Language Models [7.430195355296535]
大規模言語モデル(LLM)に基づく自動レビュー生成手法を提案する。
プロパン脱水素 (PDH) 触媒について検討する際, LLM アカウントあたりの平均秒数で, 343 項目から包括的レビューを迅速に生成した。
我々は多層品質制御戦略を採用し、手法の信頼性と効果的な幻覚軽減を確実にする。
論文 参考訳(メタデータ) (2024-07-30T15:26:36Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。