論文の概要: Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes
- arxiv url: http://arxiv.org/abs/2411.02523v1
- Date: Fri, 01 Nov 2024 02:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:38.652099
- Title: Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes
- Title(参考訳): 臨床症例ヴィグネットの鑑別診断における実験結果が大規模言語モデルに及ぼす影響の評価
- Authors: Balu Bhasuran, Qiao Jin, Yuzhang Xie, Carl Yang, Karim Hanna, Jennifer Costa, Cindy Shavor, Zhiyong Lu, Zhe He,
- Abstract要約: 本研究では,実験結果が大規模言語モデル(LLM)による差分診断に及ぼす影響を評価する。
LLMs GPT-4, GPT-3.5, Llama-2-70b, Claude-2, Mixtral-8x7B を用いてTop 10, Top 5, Top 1 DDx の生成実験を行った。
GPT-4は、トップ1の診断で55%、研究所のデータでトップ10で60%の精度で、精度は80%まで向上した。
肝臓機能、代謝・毒性パネル、血清・免疫検査を含む実験室検査は一般的に正しく解釈された。
- 参考スコア(独自算出の注目度): 20.651573628726148
- License:
- Abstract: Differential diagnosis is crucial for medicine as it helps healthcare providers systematically distinguish between conditions that share similar symptoms. This study assesses the impact of lab test results on differential diagnoses (DDx) made by large language models (LLMs). Clinical vignettes from 50 case reports from PubMed Central were created incorporating patient demographics, symptoms, and lab results. Five LLMs GPT-4, GPT-3.5, Llama-2-70b, Claude-2, and Mixtral-8x7B were tested to generate Top 10, Top 5, and Top 1 DDx with and without lab data. A comprehensive evaluation involving GPT-4, a knowledge graph, and clinicians was conducted. GPT-4 performed best, achieving 55% accuracy for Top 1 diagnoses and 60% for Top 10 with lab data, with lenient accuracy up to 80%. Lab results significantly improved accuracy, with GPT-4 and Mixtral excelling, though exact match rates were low. Lab tests, including liver function, metabolic/toxicology panels, and serology/immune tests, were generally interpreted correctly by LLMs for differential diagnosis.
- Abstract(参考訳): 異なる診断は、医療提供者が類似の症状を共有する条件を体系的に区別するのに役立つため、医療にとって不可欠である。
本研究では,実験結果が大規模言語モデル(LLM)による差分診断(DDx)に与える影響を評価する。
PubMed Centralの50件の報告から得られた臨床ヴィグネットは、患者の人口統計、症状、検査結果などを取り入れて作成された。
5つのLCM (GPT-4, GPT-3.5, Llama-2-70b, Claude-2, Mixtral-8x7B) を試験し、Top 10、Top 5、Top 1 DDxを生成した。
GPT-4,知識グラフ,臨床医を含む総合的な評価を行った。
GPT-4は、トップ1の診断で55%、研究所のデータでトップ10で60%の精度で、精度は80%まで向上した。
実験結果はGPT-4とMixtralで精度が大幅に向上したが、正確な一致率は低かった。
肝機能検査,代謝・毒性検査,血清・免疫検査を含む実験室検査は,鑑別診断において一般的にLLMによって正しく解釈された。
関連論文リスト
- Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports [1.5972172622800358]
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。
GPT-4と同等の92.1%のF1スコアが得られた。
論文 参考訳(メタデータ) (2024-10-11T20:16:25Z) - Lab-AI -- Retrieval-Augmented Language Model for Personalized Lab Test Interpretation in Clinical Medicine [8.888389873289913]
ほとんどの患者ポータルは、年齢や性別などの要因を無視して、普遍的な正常な範囲を使用している。
本研究では,レトリーバル拡張世代(RAG)を信頼度の高い健康源から利用して,パーソナライズされた正常範囲を提供する対話型システムであるLab-AIを紹介する。
論文 参考訳(メタデータ) (2024-09-16T20:36:17Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z) - The Case Records of ChatGPT: Language Models and Complex Clinical
Questions [0.35157846138914034]
臨床診断における大規模言語AIモデル GPT4 と GPT3.5 の精度について検討した。
GPT4, GPT3.5は1回の試行で26%, 22%, 3回の検行で46%, 42%の精度で正しい診断を行った。
論文 参考訳(メタデータ) (2023-05-09T16:58:32Z) - Electromyography Signal Classification Using Deep Learning [0.0]
我々はL2正規化を用いた深層学習モデルを実装し,EMG(Electromyography)データに基づいて学習を行った。
データは、コントロールグループ、ミオパチー、ALS患者から収集されたEMG信号からなる。
このモデルでは、正常症例(対照群)を100%の精度で他の患者と区別することができ、ミオパチーとALSをそれぞれ97.4と98.2の精度で分類することができた。
論文 参考訳(メタデータ) (2023-05-06T10:44:38Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z) - Identification of Ischemic Heart Disease by using machine learning
technique based on parameters measuring Heart Rate Variability [50.591267188664666]
本研究は,243名の非侵襲的特徴(年齢,性別,左室容積率,HRV15)を用いて,一連のANNの訓練と評価を行った。
最高の結果は、7つの入力パラメータと7つの隠れノードを使用して、トレーニングと検証データセットに対して98.9%と82%の精度で得られた。
論文 参考訳(メタデータ) (2020-10-29T19:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。