論文の概要: Classification performance and reproducibility of GPT-4 omni for information extraction from veterinary electronic health records
- arxiv url: http://arxiv.org/abs/2409.13727v1
- Date: Mon, 9 Sep 2024 21:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:35:28.620795
- Title: Classification performance and reproducibility of GPT-4 omni for information extraction from veterinary electronic health records
- Title(参考訳): 獣医の電子健康記録からの情報抽出のためのGPT-4オムニの分類と再現性
- Authors: Judit M Wulcan, Kevin L Jacques, Mary Ann Lee, Samantha L Kovacs, Nicole Dausend, Lauren E Prince, Jonatan Wulcan, Sina Marsilio, Stefan M Keller,
- Abstract要約: 本研究は, GPT-4 omni (GPT-4o) と GPT-3.5 Turbo の異なる条件下での性能を比較した。
GPT-4o を用いて獣医学的 EHR からの情報抽出を自動化することは手作業による抽出の代替となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can extract information from veterinary electronic health records (EHRs), but performance differences between models, the effect of temperature settings, and the influence of text ambiguity have not been previously evaluated. This study addresses these gaps by comparing the performance of GPT-4 omni (GPT-4o) and GPT-3.5 Turbo under different conditions and investigating the relationship between human interobserver agreement and LLM errors. The LLMs and five humans were tasked with identifying six clinical signs associated with Feline chronic enteropathy in 250 EHRs from a veterinary referral hospital. At temperature 0, the performance of GPT-4o compared to the majority opinion of human respondents, achieved 96.9% sensitivity (interquartile range [IQR] 92.9-99.3%), 97.6% specificity (IQR 96.5-98.5%), 80.7% positive predictive value (IQR 70.8-84.6%), 99.5% negative predictive value (IQR 99.0-99.9%), 84.4% F1 score (IQR 77.3-90.4%), and 96.3% balanced accuracy (IQR 95.0-97.9%). The performance of GPT-4o was significantly better than that of its predecessor, GPT-3.5 Turbo, particularly with respect to sensitivity where GPT-3.5 Turbo only achieved 81.7% (IQR 78.9-84.8%). Adjusting the temperature for GPT-4o did not significantly impact classification performance. GPT-4o demonstrated greater reproducibility than human pairs regardless of temperature, with an average Cohen's kappa of 0.98 (IQR 0.98-0.99) at temperature 0 compared to 0.8 (IQR 0.78-0.81) for humans. Most GPT-4o errors occurred in instances where humans disagreed (35/43 errors, 81.4%), suggesting that these errors were more likely caused by ambiguity of the EHR than explicit model faults. Using GPT-4o to automate information extraction from veterinary EHRs is a viable alternative to manual extraction.
- Abstract(参考訳): 大型言語モデル (LLM) は獣医の電子健康記録(EHR)から情報を抽出することができるが, モデル間の性能差, 温度設定の影響, テキストのあいまいさの影響は評価されていない。
本研究では,GPT-4オムニ(GPT-4o)とGPT-3.5ターボ(GPT-3.5 Turbo)の性能を異なる条件で比較し,人体間合意とLCM誤差の関係について検討した。
LLMと5人のヒトは、獣医の紹介病院から250 EHRで猫慢性腸症に関連する6つの臨床症状を同定する任務を負った。
温度0では、GPT-4oの性能は、回答者の多数意見と比較して96.9%の感度(IQR]92.9-99.3%)、97.6%の特異性(IQR 96.5-98.5%)、80.7%の正の予測値(IQR 70.8-84.6%)、99.5%の負の予測値(IQR 99.0-99.9%)、84.4%のF1スコア(IQR 77.3-90.4%)、96.3%のバランス精度(IQR 95.0-979%)を達成した。
特にGPT-3.5ターボは81.7%(IQR 78.9-84.8%)しか達成できなかった。
GPT-4oの温度調整は分類性能に大きな影響を与えなかった。
GPT-4oの再現性は, 温度0では平均0.98 (IQR 0.98-0.99) であり, ヒトでは0.8 (IQR 0.78-0.81) であった。
ほとんどのGPT-4oエラーは、人間が反対するケース(35/43エラー、81.4%)で発生し、これらのエラーは、明示的なモデル欠陥よりもEHRの曖昧さによって引き起こされた可能性が高いことを示唆している。
GPT-4o を用いて獣医学的 EHR からの情報抽出を自動化することは手作業による抽出の代替となる。
関連論文リスト
- A Hybrid Artificial Intelligence System for Automated EEG Background Analysis and Report Generation [0.1874930567916036]
本研究では,脳波の背景活動とレポート生成を自動的に解釈する,革新的なハイブリッド人工知能(AI)システムを提案する。
このシステムは、後続支配リズム(PDR)予測のためのディープラーニングモデル、教師なしアーティファクト除去、および異常検出のためのエキスパート設計アルゴリズムを組み合わせる。
このAIシステムは、全般的なバックグラウンドの減速を検知し、焦点異常の検出を改善することで神経学者を著しく上回った。
論文 参考訳(メタデータ) (2024-11-15T01:49:17Z) - Ambient AI Scribing Support: Comparing the Performance of Specialized AI Agentic Architecture to Leading Foundational Models [0.0]
Sporo HealthのAI Scribeは、医療用スクラブ用に微調整されたプロプライエタリなモデルである。
臨床医が提供したSOAPノートを基礎的事実として, パートナー診療所の非特定患者記録を分析した。
スポロは全てのモデルに勝り、最高リコール(73.3%)、精度(78.6%)、F1スコア(75.3%)を最低パフォーマンス差で達成した。
論文 参考訳(メタデータ) (2024-11-11T04:45:48Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - MIMIC-IV-Ext-PE: Using a large language model to predict pulmonary embolism phenotype in the MIMIC-IV dataset [0.0]
肺塞栓症は院内死亡予防の主因である。
研究用のPEラベルを含む大規模な公開データセットは少ない。
我々はCTPAスキャンで得られた全放射線診断報告を抽出し、2名の医師が手動でPE陽性(急性PE)またはPE陰性(PE陰性)と診断した。
我々は、ラベルを自動的に抽出するために、以前に微調整されたBio_ClinicalBERT変換言語モデル、VTE-BERTを適用した。
論文 参考訳(メタデータ) (2024-10-29T19:28:44Z) - Calibrating Language Models with Adaptive Temperature Scaling [58.056023173579625]
本稿では,各トークンの温度スケーリングパラメータを予測するポストホックキャリブレーション法であるAdaptive Temperature Scaling (ATS)を紹介する。
ATSは、以前のキャリブレーション法と比較して、3つの下流自然言語評価ベンチマークで10-50%以上のキャリブレーションを改善する。
論文 参考訳(メタデータ) (2024-09-29T22:54:31Z) - Hybrid Student-Teacher Large Language Model Refinement for Cancer Toxicity Symptom Extraction [3.564938069395287]
大きな言語モデル(LLM)は臨床症状の抽出に有意な可能性を秘めているが、医療分野への展開はプライバシの懸念、計算上の制限、運用コストに制約されている。
本研究は, 癌毒性症状抽出のためのコンパクトLLMの最適化について, 新規反復精製法を用いて検討した。
論文 参考訳(メタデータ) (2024-08-08T22:18:01Z) - Preparing to Integrate Generative Pretrained Transformer Series 4 models
into Genetic Variant Assessment Workflows: Assessing Performance, Drift, and
Nondeterminism Characteristics Relative to Classifying Functional Evidence in
Literature [0.0]
大規模言語モデル(LLM)は、臨床検査における遺伝的変異文献レビューを改善することを約束している。
我々は,GPT-4(Generative Pretrained Transformer 4's)の性能,非決定性,ドリフトを評価し,複雑な臨床プロセスでの使用法について検討した。
論文 参考訳(メタデータ) (2023-12-21T01:56:00Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Comparison of Machine Learning Classifiers to Predict Patient Survival
and Genetics of GBM: Towards a Standardized Model for Clinical Implementation [44.02622933605018]
放射線モデルは、グリオ芽腫(GBM)の結果予測のための臨床データを上回ることが示されています。
GBM患者の生存率(OS),IDH変異,O-6-メチルグアニン-DNA-メチルトランスフェラーゼ(MGMT)プロモーターメチル化,EGFR(EGFR)VII増幅,Ki-67発現の9種類の機械学習分類器を比較した。
xgb は os (74.5%), ab for idh 変異 (88%), mgmt メチル化 (71,7%), ki-67 発現 (86,6%), egfr増幅 (81。
論文 参考訳(メタデータ) (2021-02-10T15:10:37Z) - Machine-Learning-Based Multiple Abnormality Prediction with Large-Scale
Chest Computed Tomography Volumes [64.21642241351857]
19,993症例から36,316巻の胸部CTデータセットを収集,解析した。
自由テキストラジオグラフィーレポートから異常ラベルを自動的に抽出するルールベース手法を開発した。
胸部CTボリュームの多臓器・多臓器分類モデルも開発した。
論文 参考訳(メタデータ) (2020-02-12T00:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。