論文の概要: Classification performance and reproducibility of GPT-4 omni for information extraction from veterinary electronic health records
- arxiv url: http://arxiv.org/abs/2409.13727v1
- Date: Mon, 9 Sep 2024 21:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:35:28.620795
- Title: Classification performance and reproducibility of GPT-4 omni for information extraction from veterinary electronic health records
- Title(参考訳): 獣医の電子健康記録からの情報抽出のためのGPT-4オムニの分類と再現性
- Authors: Judit M Wulcan, Kevin L Jacques, Mary Ann Lee, Samantha L Kovacs, Nicole Dausend, Lauren E Prince, Jonatan Wulcan, Sina Marsilio, Stefan M Keller,
- Abstract要約: 本研究は, GPT-4 omni (GPT-4o) と GPT-3.5 Turbo の異なる条件下での性能を比較した。
GPT-4o を用いて獣医学的 EHR からの情報抽出を自動化することは手作業による抽出の代替となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can extract information from veterinary electronic health records (EHRs), but performance differences between models, the effect of temperature settings, and the influence of text ambiguity have not been previously evaluated. This study addresses these gaps by comparing the performance of GPT-4 omni (GPT-4o) and GPT-3.5 Turbo under different conditions and investigating the relationship between human interobserver agreement and LLM errors. The LLMs and five humans were tasked with identifying six clinical signs associated with Feline chronic enteropathy in 250 EHRs from a veterinary referral hospital. At temperature 0, the performance of GPT-4o compared to the majority opinion of human respondents, achieved 96.9% sensitivity (interquartile range [IQR] 92.9-99.3%), 97.6% specificity (IQR 96.5-98.5%), 80.7% positive predictive value (IQR 70.8-84.6%), 99.5% negative predictive value (IQR 99.0-99.9%), 84.4% F1 score (IQR 77.3-90.4%), and 96.3% balanced accuracy (IQR 95.0-97.9%). The performance of GPT-4o was significantly better than that of its predecessor, GPT-3.5 Turbo, particularly with respect to sensitivity where GPT-3.5 Turbo only achieved 81.7% (IQR 78.9-84.8%). Adjusting the temperature for GPT-4o did not significantly impact classification performance. GPT-4o demonstrated greater reproducibility than human pairs regardless of temperature, with an average Cohen's kappa of 0.98 (IQR 0.98-0.99) at temperature 0 compared to 0.8 (IQR 0.78-0.81) for humans. Most GPT-4o errors occurred in instances where humans disagreed (35/43 errors, 81.4%), suggesting that these errors were more likely caused by ambiguity of the EHR than explicit model faults. Using GPT-4o to automate information extraction from veterinary EHRs is a viable alternative to manual extraction.
- Abstract(参考訳): 大型言語モデル (LLM) は獣医の電子健康記録(EHR)から情報を抽出することができるが, モデル間の性能差, 温度設定の影響, テキストのあいまいさの影響は評価されていない。
本研究では,GPT-4オムニ(GPT-4o)とGPT-3.5ターボ(GPT-3.5 Turbo)の性能を異なる条件で比較し,人体間合意とLCM誤差の関係について検討した。
LLMと5人のヒトは、獣医の紹介病院から250 EHRで猫慢性腸症に関連する6つの臨床症状を同定する任務を負った。
温度0では、GPT-4oの性能は、回答者の多数意見と比較して96.9%の感度(IQR]92.9-99.3%)、97.6%の特異性(IQR 96.5-98.5%)、80.7%の正の予測値(IQR 70.8-84.6%)、99.5%の負の予測値(IQR 99.0-99.9%)、84.4%のF1スコア(IQR 77.3-90.4%)、96.3%のバランス精度(IQR 95.0-979%)を達成した。
特にGPT-3.5ターボは81.7%(IQR 78.9-84.8%)しか達成できなかった。
GPT-4oの温度調整は分類性能に大きな影響を与えなかった。
GPT-4oの再現性は, 温度0では平均0.98 (IQR 0.98-0.99) であり, ヒトでは0.8 (IQR 0.78-0.81) であった。
ほとんどのGPT-4oエラーは、人間が反対するケース(35/43エラー、81.4%)で発生し、これらのエラーは、明示的なモデル欠陥よりもEHRの曖昧さによって引き起こされた可能性が高いことを示唆している。
GPT-4o を用いて獣医学的 EHR からの情報抽出を自動化することは手作業による抽出の代替となる。
関連論文リスト
- Evaluating GPT's Capability in Identifying Stages of Cognitive Impairment from Electronic Health Data [0.8777457069049611]
本研究は,ゼロショットGPT-4oを用いて2つのタスクにおける認知障害の段階を決定する自動アプローチを評価する。
GPT-4oのグローバル・クリニカル・認知症評価(CDR)を769例から評価した。
第2に, 正常認知, 軽度認知障害 (MCI) , 認知認知障害 (MCI) と認知障害 (MCI) の鑑別能力を検討した。
論文 参考訳(メタデータ) (2025-02-13T19:04:47Z) - Large Language Models' Accuracy in Emulating Human Experts' Evaluation of Public Sentiments about Heated Tobacco Products on Social Media [2.07180164747172]
大規模言語モデル(LLM)は、労働集約的な人間の感情分析プロセスの合理化に役立つ。
本研究では,加熱タバコ製品(HTP)に関するソーシャルメディアメッセージの人間感情評価の再現におけるLCMの精度について検討した。
LLMはHTP関連ソーシャルメディアメッセージの感情分析に使用することができ、GPT-4 Turboは人間の専門家と比較して約80%の精度である。
論文 参考訳(メタデータ) (2025-01-31T20:35:30Z) - Evaluating Spoken Language as a Biomarker for Automated Screening of Cognitive Impairment [37.40606157690235]
言語と言語の変化は、アルツハイマー病と関連する認知症を早期に予測できる。
音声言語からのADRDスクリーニングと重度予測のための機械学習手法の評価を行った。
リスク階層化と言語的特徴重要度分析は、予測の解釈可能性と臨床的有用性を高めた。
論文 参考訳(メタデータ) (2025-01-30T20:17:17Z) - A Hybrid Artificial Intelligence System for Automated EEG Background Analysis and Report Generation [0.1874930567916036]
本研究では,脳波の背景活動とレポート生成を自動的に解釈する,革新的なハイブリッド人工知能(AI)システムを提案する。
このシステムは、後続支配リズム(PDR)予測のためのディープラーニングモデル、教師なしアーティファクト除去、および異常検出のためのエキスパート設計アルゴリズムを組み合わせる。
このAIシステムは、全般的なバックグラウンドの減速を検知し、焦点異常の検出を改善することで神経学者を著しく上回った。
論文 参考訳(メタデータ) (2024-11-15T01:49:17Z) - Ambient AI Scribing Support: Comparing the Performance of Specialized AI Agentic Architecture to Leading Foundational Models [0.0]
Sporo HealthのAI Scribeは、医療用スクラブ用に微調整されたプロプライエタリなモデルである。
臨床医が提供したSOAPノートを基礎的事実として, パートナー診療所の非特定患者記録を分析した。
スポロは全てのモデルに勝り、最高リコール(73.3%)、精度(78.6%)、F1スコア(75.3%)を最低パフォーマンス差で達成した。
論文 参考訳(メタデータ) (2024-11-11T04:45:48Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - MIMIC-IV-Ext-PE: Using a large language model to predict pulmonary embolism phenotype in the MIMIC-IV dataset [0.0]
肺塞栓症は院内死亡予防の主因である。
研究用のPEラベルを含む大規模な公開データセットは少ない。
我々はCTPAスキャンで得られた全放射線診断報告を抽出し、2名の医師が手動でPE陽性(急性PE)またはPE陰性(PE陰性)と診断した。
我々は、ラベルを自動的に抽出するために、以前に微調整されたBio_ClinicalBERT変換言語モデル、VTE-BERTを適用した。
論文 参考訳(メタデータ) (2024-10-29T19:28:44Z) - Calibrating Language Models with Adaptive Temperature Scaling [58.056023173579625]
本稿では,各トークンの温度スケーリングパラメータを予測するポストホックキャリブレーション法であるAdaptive Temperature Scaling (ATS)を紹介する。
ATSは、以前のキャリブレーション法と比較して、3つの下流自然言語評価ベンチマークで10-50%以上のキャリブレーションを改善する。
論文 参考訳(メタデータ) (2024-09-29T22:54:31Z) - Enhancing Large Language Models with Domain-specific Retrieval Augment Generation: A Case Study on Long-form Consumer Health Question Answering in Ophthalmology [34.82874325860935]
医学における大規模言語モデル(LLM)は、幻覚的証拠に基づく証拠を欠いた応答を生成する可能性がある。
我々は,7万件の眼科用文書を用いたRAGパイプラインを開発し,推測時間にLCMを増大させるために関連文書を検索した。
医療従事者10名を対象に,RAGの有無を問う質問100件において, LLMの500件以上の基準を含む回答を評価した。
論文 参考訳(メタデータ) (2024-09-20T21:06:00Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - Comparison of Machine Learning Classifiers to Predict Patient Survival
and Genetics of GBM: Towards a Standardized Model for Clinical Implementation [44.02622933605018]
放射線モデルは、グリオ芽腫(GBM)の結果予測のための臨床データを上回ることが示されています。
GBM患者の生存率(OS),IDH変異,O-6-メチルグアニン-DNA-メチルトランスフェラーゼ(MGMT)プロモーターメチル化,EGFR(EGFR)VII増幅,Ki-67発現の9種類の機械学習分類器を比較した。
xgb は os (74.5%), ab for idh 変異 (88%), mgmt メチル化 (71,7%), ki-67 発現 (86,6%), egfr増幅 (81。
論文 参考訳(メタデータ) (2021-02-10T15:10:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。