論文の概要: Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes
- arxiv url: http://arxiv.org/abs/2411.02523v1
- Date: Fri, 01 Nov 2024 02:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:38.652099
- Title: Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes
- Title(参考訳): 臨床症例ヴィグネットの鑑別診断における実験結果が大規模言語モデルに及ぼす影響の評価
- Authors: Balu Bhasuran, Qiao Jin, Yuzhang Xie, Carl Yang, Karim Hanna, Jennifer Costa, Cindy Shavor, Zhiyong Lu, Zhe He,
- Abstract要約: 本研究では,実験結果が大規模言語モデル(LLM)による差分診断に及ぼす影響を評価する。
LLMs GPT-4, GPT-3.5, Llama-2-70b, Claude-2, Mixtral-8x7B を用いてTop 10, Top 5, Top 1 DDx の生成実験を行った。
GPT-4は、トップ1の診断で55%、研究所のデータでトップ10で60%の精度で、精度は80%まで向上した。
肝臓機能、代謝・毒性パネル、血清・免疫検査を含む実験室検査は一般的に正しく解釈された。
- 参考スコア(独自算出の注目度): 20.651573628726148
- License:
- Abstract: Differential diagnosis is crucial for medicine as it helps healthcare providers systematically distinguish between conditions that share similar symptoms. This study assesses the impact of lab test results on differential diagnoses (DDx) made by large language models (LLMs). Clinical vignettes from 50 case reports from PubMed Central were created incorporating patient demographics, symptoms, and lab results. Five LLMs GPT-4, GPT-3.5, Llama-2-70b, Claude-2, and Mixtral-8x7B were tested to generate Top 10, Top 5, and Top 1 DDx with and without lab data. A comprehensive evaluation involving GPT-4, a knowledge graph, and clinicians was conducted. GPT-4 performed best, achieving 55% accuracy for Top 1 diagnoses and 60% for Top 10 with lab data, with lenient accuracy up to 80%. Lab results significantly improved accuracy, with GPT-4 and Mixtral excelling, though exact match rates were low. Lab tests, including liver function, metabolic/toxicology panels, and serology/immune tests, were generally interpreted correctly by LLMs for differential diagnosis.
- Abstract(参考訳): 異なる診断は、医療提供者が類似の症状を共有する条件を体系的に区別するのに役立つため、医療にとって不可欠である。
本研究では,実験結果が大規模言語モデル(LLM)による差分診断(DDx)に与える影響を評価する。
PubMed Centralの50件の報告から得られた臨床ヴィグネットは、患者の人口統計、症状、検査結果などを取り入れて作成された。
5つのLCM (GPT-4, GPT-3.5, Llama-2-70b, Claude-2, Mixtral-8x7B) を試験し、Top 10、Top 5、Top 1 DDxを生成した。
GPT-4,知識グラフ,臨床医を含む総合的な評価を行った。
GPT-4は、トップ1の診断で55%、研究所のデータでトップ10で60%の精度で、精度は80%まで向上した。
実験結果はGPT-4とMixtralで精度が大幅に向上したが、正確な一致率は低かった。
肝機能検査,代謝・毒性検査,血清・免疫検査を含む実験室検査は,鑑別診断において一般的にLLMによって正しく解釈された。
関連論文リスト
- CardioLab: Laboratory Values Estimation and Monitoring from Electrocardiogram Signals -- A Multimodal Deep Learning Approach [1.068128849363198]
我々はMIMIC-IVデータセットを用いてマルチモーダル深層学習モデルを構築し、推定(リアルタイム)と監視(将来の間隔での予測)実験値異常の可能性を示す。
AUROCスコアが0.70を超え、23の実験室値と26の観測室値に対して統計的に有意な精度で予測性能を示す。
論文 参考訳(メタデータ) (2024-11-22T12:10:03Z) - Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports [1.5972172622800358]
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。
GPT-4と同等の92.1%のF1スコアが得られた。
論文 参考訳(メタデータ) (2024-10-11T20:16:25Z) - Lab-AI -- Retrieval-Augmented Language Model for Personalized Lab Test Interpretation in Clinical Medicine [8.888389873289913]
ほとんどの患者ポータルは、年齢や性別などの要因を無視して、普遍的な正常な範囲を使用している。
本研究では,レトリーバル拡張世代(RAG)を信頼度の高い健康源から利用して,パーソナライズされた正常範囲を提供する対話型システムであるLab-AIを紹介する。
論文 参考訳(メタデータ) (2024-09-16T20:36:17Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Methodology and Real-World Applications of Dynamic Uncertain Causality Graph for Clinical Diagnosis with Explainability and Invariance [41.373856519548404]
Dynamic Uncertain Causality Graph (DUCG)アプローチは、さまざまなアプリケーションシナリオで因果性駆動、説明可能、不変である。
54件の主訴を含む46件のDUCGモデルが製造された。
実際の診断は100万件以上行われており、誤診断は17例に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-09T11:37:45Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z) - Electromyography Signal Classification Using Deep Learning [0.0]
我々はL2正規化を用いた深層学習モデルを実装し,EMG(Electromyography)データに基づいて学習を行った。
データは、コントロールグループ、ミオパチー、ALS患者から収集されたEMG信号からなる。
このモデルでは、正常症例(対照群)を100%の精度で他の患者と区別することができ、ミオパチーとALSをそれぞれ97.4と98.2の精度で分類することができた。
論文 参考訳(メタデータ) (2023-05-06T10:44:38Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z) - Ensemble model for pre-discharge icd10 coding prediction [45.82374977939355]
正確なコード予測のための複数の臨床データソースを組み込んだアンサンブルモデルを提案する。
平均精度は0.73および0.58、F1スコアは0.56および0.35、患者および外来データセットの主診断予測では0.71および0.4のマルチラベル分類精度を得る。
論文 参考訳(メタデータ) (2020-12-16T07:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。