論文の概要: High-performance automated abstract screening with large language model ensembles
- arxiv url: http://arxiv.org/abs/2411.02451v2
- Date: Fri, 22 Nov 2024 14:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:01:37.697787
- Title: High-performance automated abstract screening with large language model ensembles
- Title(参考訳): 大規模言語モデルアンサンブルを用いた高速自動抽象スクリーニング
- Authors: Rohan Sanghera, Arun James Thirunavukarasu, Marc El Khoury, Jessica O'Logbon, Yuqing Chen, Archie Watt, Mustafa Mahmood, Hamid Butt, George Nishimura, Andrew Soltan,
- Abstract要約: 大規模言語モデル(LLM)は入力テキストの処理と解釈を必要とするタスクに優れる。
LLMは、抽象スクリーニングのためのゼロショットバイナリ分類において、その精度を評価するために、体系的なレビューで試された。
800レコードのサブセットに対する試行では、最適なプロンプト戦略を特定し、人間の研究者にとって優れたパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 0.9362620873652917
- License:
- Abstract: Large language models (LLMs) excel in tasks requiring processing and interpretation of input text. Abstract screening is a labour-intensive component of systematic review involving repetitive application of inclusion and exclusion criteria on a large volume of studies identified by a literature search. Here, LLMs (GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o, Llama 3 70B, Gemini 1.5 Pro, and Claude Sonnet 3.5) were trialled on systematic reviews in a full issue of the Cochrane Library to evaluate their accuracy in zero-shot binary classification for abstract screening. Trials over a subset of 800 records identified optimal prompting strategies and demonstrated superior performance of LLMs to human researchers in terms of sensitivity (LLM-max = 1.000, human-max = 0.775), precision (LLM-max = 0.927, human-max = 0.911), and balanced accuracy (LLM-max = 0.904, human-max = 0.865). The best performing LLM-prompt combinations were trialled across every replicated search result (n = 119,691), and exhibited consistent sensitivity (range 0.756-1.000) but diminished precision (range 0.004-0.096). 66 LLM-human and LLM-LLM ensembles exhibited perfect sensitivity with a maximal precision of 0.458, with less observed performance drop in larger trials. Significant variation in performance was observed between reviews, highlighting the importance of domain-specific validation before deployment. LLMs may reduce the human labour cost of systematic review with maintained or improved accuracy and sensitivity. Systematic review is the foundation of evidence synthesis across academic disciplines, including evidence-based medicine, and LLMs may increase the efficiency and quality of this mode of research.
- Abstract(参考訳): 大規模言語モデル(LLM)は入力テキストの処理と解釈を必要とするタスクに優れる。
抽象的スクリーニングは、文献検索によって特定される大量の研究に対して、包括的および排除基準の繰り返し適用を含む体系的レビューの労働集約的な構成要素である。
ここで、LLM (GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o, Llama 3 70B, Gemini 1.5 Pro, Claude Sonnet 3.5) はコクラン図書館の全号で体系的なレビューを行い、その精度をゼロショットバイナリ分類で評価した。
800レコードのサブセットに対する試行では、最適なプロンプト戦略を特定し、感度(LLM-max = 1.000, human-max = 0.775)、精度(LLM-max = 0.927, human-max = 0.911)、精度(LLM-max = 0.904, human-max = 0.865)の点でLLMの優れた性能を示した。
LLM-promptの最良の組み合わせは、すべての複製された検索結果(n = 119,691)で試行され、一貫した感度(0.756-1.000の範囲)を示したが、精度(0.004-0.096範囲)は低下した。
66 LLM- Human と LLM-LLM のアンサンブルは最大精度0.458で完全な感度を示し、より大きな試験では性能低下が観測されなかった。
レビュー間で重要なパフォーマンスの変化が観察され、デプロイ前にドメイン固有の検証の重要性が強調された。
LLMは、正確さと感度を維持したり改善したりすることで、体系的なレビューの人件費を削減できる。
体系的レビューは、エビデンスベースの医学を含む学術分野にわたるエビデンス合成の基礎であり、LCMは、この研究様式の効率と品質を高める可能性がある。
関連論文リスト
- Evaluating The Performance of Using Large Language Models to Automate Summarization of CT Simulation Orders in Radiation Oncology [3.0048953993445586]
本研究の目的は,大規模言語モデル(LLM)を用いて,CTシミュレーションの順序から要約を生成することである。
ローカルにホストされたLlama 3.1 405Bモデルを使用して、CTシミュレーションの順序からキーワードを抽出し、要約を生成する。
LLM生成サマリーの精度は, 基礎事実を基準として, セラピストによって評価された。
論文 参考訳(メタデータ) (2025-01-27T18:47:58Z) - Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - Augmenting Human-Annotated Training Data with Large Language Model Generation and Distillation in Open-Response Assessment [4.788487793976781]
大規模言語モデル(LLM)は、テキスト分類タスクを低コストで自動化するのに役立つ。
対照的に、人間のコーディングは一般的により信頼性が高いが、大規模な調達には高価である。
両者の強みを生かしたハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-15T20:13:46Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - LLM-based MOFs Synthesis Condition Extraction using Few-Shot Demonstrations [31.35595673239483]
我々は,大規模言語モデル (LLM) を用いた既存の合成抽出手法のほとんどは,原始的なゼロショット学習に留まっていると論じる。
本稿では,人間とAIの合同データキュレーションプロセスを提案する。
84,898個のよく定義されたMOFからランダムにサンプリングされたデータセット上で、提案手法はF1の性能をはるかに高い精度で達成する。
論文 参考訳(メタデータ) (2024-08-06T14:53:25Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。