論文の概要: Preparing to Integrate Generative Pretrained Transformer Series 4 models
into Genetic Variant Assessment Workflows: Assessing Performance, Drift, and
Nondeterminism Characteristics Relative to Classifying Functional Evidence in
Literature
- arxiv url: http://arxiv.org/abs/2312.13521v2
- Date: Fri, 16 Feb 2024 21:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:54:36.732561
- Title: Preparing to Integrate Generative Pretrained Transformer Series 4 models
into Genetic Variant Assessment Workflows: Assessing Performance, Drift, and
Nondeterminism Characteristics Relative to Classifying Functional Evidence in
Literature
- Title(参考訳): 遺伝的変異評価ワークフローへの生成前訓練トランスフォーマー4モデルの統合準備--文学における機能的証拠の分類に対する性能、ドリフト、非決定性特性の評価
- Authors: Samuel J. Aronson (1,2), Kalotina Machini (1,3), Jiyeon Shin (2),
Pranav Sriraman (1), Sean Hamill (4), Emma R. Henricks (1), Charlotte Mailly
(1,2), Angie J. Nottage (1), Sami S. Amr (1,3), Michael Oates (1,2), Matthew
S. Lebo (1,3) ((1) Mass General Brigham Personalized Medicine, (2)
Accelerator for Clinical Transformation, Mass General Brigham, (3) Department
of Pathology, Brigham and Women's Hospital, (4) Microsoft Corporation)
- Abstract要約: 大規模言語モデル(LLM)は、臨床検査における遺伝的変異文献レビューを改善することを約束している。
我々は,GPT-4(Generative Pretrained Transformer 4's)の性能,非決定性,ドリフトを評価し,複雑な臨床プロセスでの使用法について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background. Large Language Models (LLMs) hold promise for improving genetic
variant literature review in clinical testing. We assessed Generative
Pretrained Transformer 4's (GPT-4) performance, nondeterminism, and drift to
inform its suitability for use in complex clinical processes. Methods. A
2-prompt process for classification of functional evidence was optimized using
a development set of 45 articles. The prompts asked GPT-4 to supply all
functional data present in an article related to a variant or indicate that no
functional evidence is present. For articles indicated as containing functional
evidence, a second prompt asked GPT-4 to classify the evidence into pathogenic,
benign, or intermediate/inconclusive categories. A final test set of 72
manually classified articles was used to test performance. Results. Over a
2.5-month period (Dec 2023-Feb 2024), we observed substantial differences in
intraday (nondeterminism) and across day (drift) results, which lessened after
1/18/24. This variability is seen within and across models in the GPT-4 series,
affecting different performance statistics to different degrees. Twenty runs
after 1/18/24 identified articles containing functional evidence with 92.2%
sensitivity, 95.6% positive predictive value (PPV) and 86.3% negative
predictive value (NPV). The second prompt's identified pathogenic functional
evidence with 90.0% sensitivity, 74.0% PPV and 95.3% NVP and for benign
evidence with 88.0% sensitivity, 76.6% PPV and 96.9% NVP. Conclusion.
Nondeterminism and drift within LLMs must be assessed and monitored when
introducing LLM based functionality into clinical workflows. Failing to do this
assessment or accounting for these challenges could lead to incorrect or
missing information that is critical for patient care. The performance of our
prompts appears adequate to assist in article prioritization but not in
automated decision making.
- Abstract(参考訳): 背景。
大規模言語モデル(LLM)は、臨床検査における遺伝的変異文献レビューを改善することを約束している。
我々は,GPT-4(Generative Pretrained Transformer 4's)の性能,非決定性,ドリフトを評価し,複雑な臨床プロセスでの使用に適していることを示す。
メソッド。
機能的エビデンスを分類するための2プロンプト法を45項目の開発セットを用いて最適化した。
プロンプトはGPT-4に、変種に関連する記事にあるすべての機能データを供給するか、機能的証拠がないことを示すよう依頼した。
機能的証拠を含むと示される記事について、第2のプロンプトはGPT-4に、証拠を病原性、良性、または中間的/決定的カテゴリーに分類するよう依頼した。
72の手動で分類された記事の最終テストセットは、パフォーマンスのテストに使用された。
結果だ
2023年2月2024年2月25日より,日内(非決定性)と日内(ドリフト)の有意差がみられ,1/18/24以降は減少していた。
この変動はGPT-4シリーズのモデル内およびモデル間で見られ、異なる性能統計に影響を及ぼす。
92.2%の感度、95.6%の正の予測値(PPV)、86.3%の負の予測値(NPV)を持つ機能的証拠を含む1/18/24の論文が20件続いた。
第2のプロンプトは、90.0%の感受性、74.0%のPPV、95.3%のNVP、88.0%の感度、76.6%のPPV、96.9%のNVPを持つ病原性機能的証拠を同定した。
結論だ
LLM内の非決定性とドリフトは、臨床ワークフローにLLMベースの機能を導入する際に評価され、監視されなければならない。
この評価やこれらの課題に対する会計の失敗は、患者のケアに不可欠な誤った情報や欠如につながる可能性がある。
我々のプロンプトのパフォーマンスは、記事の優先順位付けを支援するのに十分なようだが、自動意思決定では役に立たない。
関連論文リスト
- Capsule Endoscopy Multi-classification via Gated Attention and Wavelet Transformations [1.5146068448101746]
消化管の異常は患者の健康に大きく影響を与え、タイムリーな診断が必要である。
この研究は、ビデオフレームから消化管の異常を分類するために設計された新しいモデルの開発と評価のプロセスを示す。
Omni次元のGated Attention(OGA)機構とWavelet変換技術をモデルアーキテクチャに統合することで、モデルは最も重要な領域に集中することができた。
このモデルの性能は、VGG16とResNet50の2つのベースモデルに対してベンチマークされ、胃腸の異常範囲を正確に識別し分類する能力の強化が示されている。
論文 参考訳(メタデータ) (2024-10-25T08:01:35Z) - Reliability-based cleaning of noisy training labels with inductive
conformal prediction in multi-modal biomedical data mining [23.880097819466602]
帰納的共形予測(ICP)を用いた信頼性に基づくトレーニングデータクリーニング手法を提案する。
この手法は、正確にラベル付けされたトレーニングデータの小さなセットに便乗し、ICP計算された信頼性メトリクスを活用して、ラベル付けされたデータと外れ値の修正を行う。
96例中86例(最大11.4%)、AUROCおよびAUPRCは全48例(最大23.8%、69.8%)、F1スコアは48例中47例(最大74.6%、89.0%)で有意に向上した。
論文 参考訳(メタデータ) (2023-09-13T22:04:50Z) - Towards trustworthy seizure onset detection using workflow notes [5.536372101225628]
本稿では,医療従事者が日常臨床で作成するアノテーションを活用することを提案する。
トレーニングデータを68,920EEG時間にスケールアップすることにより、発作発生検出性能が大幅に向上することを示す。
また、スパイク、スロー、モーションアーティファクトなど、発作以外の26の属性を分類するマルチラベルモデルを訓練する。
論文 参考訳(メタデータ) (2023-06-14T20:13:24Z) - Machine Learning-Based Detection of Parkinson's Disease From
Resting-State EEG: A Multi-Center Study [0.125828876338076]
安静時脳波(rs-EEG)はパーキンソン病(PD)の診断に有効である。
本研究では,異なるセンターで得られた4つのデータセットから,84 PDのRS-EEG記録と85 PDの非PD被験者をプールした。
本稿では,プリプロセッシング,臨床的に検証された周波数帯域からのPSD特徴抽出,特徴選択によるエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-02T16:19:24Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - Mind the Performance Gap: Examining Dataset Shift During Prospective
Validation [6.232311195907715]
患者のリスク階層化モデルは、かつて臨床医療に統合された振り返りのパフォーマンスと比べて悪化する可能性がある。
医療関連感染症の予測のための患者リスク階層化モデル(2020-2021)の2020-2021年の予測性能と,同モデルの ('19-'20) 振り返り検証との比較を行った。
結果として生じるパフォーマンスのギャップは、主にインフラストラクチャシフトによるものであり、時間シフトによるものではない。
論文 参考訳(メタデータ) (2021-07-23T14:30:59Z) - Identification of Ischemic Heart Disease by using machine learning
technique based on parameters measuring Heart Rate Variability [50.591267188664666]
本研究は,243名の非侵襲的特徴(年齢,性別,左室容積率,HRV15)を用いて,一連のANNの訓練と評価を行った。
最高の結果は、7つの入力パラメータと7つの隠れノードを使用して、トレーニングと検証データセットに対して98.9%と82%の精度で得られた。
論文 参考訳(メタデータ) (2020-10-29T19:14:41Z) - Multilabel 12-Lead Electrocardiogram Classification Using Gradient
Boosting Tree Ensemble [64.29529357862955]
我々は,心電図の診断を分類するために,形態や信号処理機能に適合した勾配強化木のアンサンブルを用いたアルゴリズムを構築した。
各リードについて、心拍変動、PQRSTテンプレート形状、全信号波形から特徴を導出する。
各クラスに属するECGインスタンスの確率を予測するため、全12項目の特徴と合わせて、勾配を増す決定ツリーの集合に適合する。
論文 参考訳(メタデータ) (2020-10-21T18:11:36Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z) - Joint Prediction and Time Estimation of COVID-19 Developing Severe
Symptoms using Chest CT Scan [49.209225484926634]
術後に重篤な症状を発症するかどうかを判定するための共同分類法と回帰法を提案する。
提案手法は,各試料の重量を考慮し,外乱の影響を低減し,不均衡な分類の問題を検討する。
提案手法では, 重症症例の予測精度76.97%, 相関係数0.524, 変換時間0.55日差が得られた。
論文 参考訳(メタデータ) (2020-05-07T12:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。