Fugu-MT 論文翻訳(概要): High-performance automated abstract screening with large language model ensembles

論文の概要: High-performance automated abstract screening with large language model ensembles

arxiv url: http://arxiv.org/abs/2411.02451v2
Date: Fri, 22 Nov 2024 14:11:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.278258
Title: High-performance automated abstract screening with large language model ensembles
Title（参考訳）: 大規模言語モデルアンサンブルを用いた高速自動抽象スクリーニング
Authors: Rohan Sanghera, Arun James Thirunavukarasu, Marc El Khoury, Jessica O'Logbon, Yuqing Chen, Archie Watt, Mustafa Mahmood, Hamid Butt, George Nishimura, Andrew Soltan,
Abstract要約: 大規模言語モデル(LLM)は入力テキストの処理と解釈を必要とするタスクに優れる。 LLMは、抽象スクリーニングのためのゼロショットバイナリ分類において、その精度を評価するために、体系的なレビューで試された。 800レコードのサブセットに対する試行では、最適なプロンプト戦略を特定し、人間の研究者にとって優れたパフォーマンスを示した。
参考スコア（独自算出の注目度）: 0.9362620873652917
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) excel in tasks requiring processing and interpretation of input text. Abstract screening is a labour-intensive component of systematic review involving repetitive application of inclusion and exclusion criteria on a large volume of studies identified by a literature search. Here, LLMs (GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o, Llama 3 70B, Gemini 1.5 Pro, and Claude Sonnet 3.5) were trialled on systematic reviews in a full issue of the Cochrane Library to evaluate their accuracy in zero-shot binary classification for abstract screening. Trials over a subset of 800 records identified optimal prompting strategies and demonstrated superior performance of LLMs to human researchers in terms of sensitivity (LLM-max = 1.000, human-max = 0.775), precision (LLM-max = 0.927, human-max = 0.911), and balanced accuracy (LLM-max = 0.904, human-max = 0.865). The best performing LLM-prompt combinations were trialled across every replicated search result (n = 119,691), and exhibited consistent sensitivity (range 0.756-1.000) but diminished precision (range 0.004-0.096). 66 LLM-human and LLM-LLM ensembles exhibited perfect sensitivity with a maximal precision of 0.458, with less observed performance drop in larger trials. Significant variation in performance was observed between reviews, highlighting the importance of domain-specific validation before deployment. LLMs may reduce the human labour cost of systematic review with maintained or improved accuracy and sensitivity. Systematic review is the foundation of evidence synthesis across academic disciplines, including evidence-based medicine, and LLMs may increase the efficiency and quality of this mode of research.
Abstract（参考訳）: 大規模言語モデル(LLM)は入力テキストの処理と解釈を必要とするタスクに優れる。抽象的スクリーニングは、文献検索によって特定される大量の研究に対して、包括的および排除基準の繰り返し適用を含む体系的レビューの労働集約的な構成要素である。ここで、LLM (GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o, Llama 3 70B, Gemini 1.5 Pro, Claude Sonnet 3.5) はコクラン図書館の全号で体系的なレビューを行い、その精度をゼロショットバイナリ分類で評価した。 800レコードのサブセットに対する試行では、最適なプロンプト戦略を特定し、感度(LLM-max = 1.000, human-max = 0.775)、精度(LLM-max = 0.927, human-max = 0.911)、精度(LLM-max = 0.904, human-max = 0.865)の点でLLMの優れた性能を示した。 LLM-promptの最良の組み合わせは、すべての複製された検索結果(n = 119,691)で試行され、一貫した感度(0.756-1.000の範囲)を示したが、精度(0.004-0.096範囲)は低下した。 66 LLM- Human と LLM-LLM のアンサンブルは最大精度0.458で完全な感度を示し、より大きな試験では性能低下が観測されなかった。レビュー間で重要なパフォーマンスの変化が観察され、デプロイ前にドメイン固有の検証の重要性が強調された。 LLMは、正確さと感度を維持したり改善したりすることで、体系的なレビューの人件費を削減できる。体系的レビューは、エビデンスベースの医学を含む学術分野にわたるエビデンス合成の基礎であり、LCMは、この研究様式の効率と品質を高める可能性がある。

関連論文リスト

Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文参考訳（メタデータ） (2025-05-30T20:12:51Z)
Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文参考訳（メタデータ） (2025-05-23T14:06:42Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Evaluating The Performance of Using Large Language Models to Automate Summarization of CT Simulation Orders in Radiation Oncology [3.0048953993445586]
本研究の目的は,大規模言語モデル(LLM)を用いて,CTシミュレーションの順序から要約を生成することである。ローカルにホストされたLlama 3.1 405Bモデルを使用して、CTシミュレーションの順序からキーワードを抽出し、要約を生成する。 LLM生成サマリーの精度は, 基礎事実を基準として, セラピストによって評価された。
論文参考訳（メタデータ） (2025-01-27T18:47:58Z)
Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文参考訳（メタデータ） (2025-01-21T04:05:45Z)
Augmenting Human-Annotated Training Data with Large Language Model Generation and Distillation in Open-Response Assessment [4.788487793976781]
大規模言語モデル(LLM)は、テキスト分類タスクを低コストで自動化するのに役立つ。対照的に、人間のコーディングは一般的により信頼性が高いが、大規模な調達には高価である。両者の強みを生かしたハイブリッドソリューションを提案する。
論文参考訳（メタデータ） (2025-01-15T20:13:46Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Hybrid Student-Teacher Large Language Model Refinement for Cancer Toxicity Symptom Extraction [3.564938069395287]
大きな言語モデル(LLM)は臨床症状の抽出に有意な可能性を秘めているが、医療分野への展開はプライバシの懸念、計算上の制限、運用コストに制約されている。本研究は, 癌毒性症状抽出のためのコンパクトLLMの最適化について, 新規反復精製法を用いて検討した。
論文参考訳（メタデータ） (2024-08-08T22:18:01Z)
LLM-based MOFs Synthesis Condition Extraction using Few-Shot Demonstrations [31.35595673239483]
我々は,大規模言語モデル (LLM) を用いた既存の合成抽出手法のほとんどは,原始的なゼロショット学習に留まっていると論じる。本稿では,人間とAIの合同データキュレーションプロセスを提案する。 84,898個のよく定義されたMOFからランダムにサンプリングされたデータセット上で、提案手法はF1の性能をはるかに高い精度で達成する。
論文参考訳（メタデータ） (2024-08-06T14:53:25Z)
Automated Review Generation Method Based on Large Language Models [7.430195355296535]
大規模言語モデル(LLM)に基づく自動レビュー生成手法を提案する。プロパン脱水素 (PDH) 触媒について検討する際, LLM アカウントあたりの平均秒数で, 343 項目から包括的レビューを迅速に生成した。我々は多層品質制御戦略を採用し、手法の信頼性と効果的な幻覚軽減を確実にする。
論文参考訳（メタデータ） (2024-07-30T15:26:36Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
A Comprehensive Study on Large Language Models for Mutation Testing [39.991649516721424]
大規模言語モデル(LLM)は、最近、研究作業と産業実践の両方においてミュータントを生成するために使用されている。 2つの異なるJavaの実際のバグベンチマークから得られた851の実際のバグについて、6つのLLMに関する総合的な実証研究の結果を報告する。我々の結果は、既存のルールベースのアプローチと比較して、LSMはより多様な変異を発生し、実際のバグに近づき、そして最も重要なことは、90.1%高い障害検出を持つことを示した。
論文参考訳（メタデータ） (2024-06-14T08:49:41Z)
Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。その結果,約80%の精度で,領域間での変動が認められた。
論文参考訳（メタデータ） (2024-05-23T11:24:23Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。