論文の概要: Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes
- arxiv url: http://arxiv.org/abs/2411.02523v1
- Date: Fri, 01 Nov 2024 02:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:44.313781
- Title: Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes
- Title(参考訳): 臨床症例ヴィグネットの鑑別診断における実験結果が大規模言語モデルに及ぼす影響の評価
- Authors: Balu Bhasuran, Qiao Jin, Yuzhang Xie, Carl Yang, Karim Hanna, Jennifer Costa, Cindy Shavor, Zhiyong Lu, Zhe He,
- Abstract要約: 本研究では,実験結果が大規模言語モデル(LLM)による差分診断に及ぼす影響を評価する。
LLMs GPT-4, GPT-3.5, Llama-2-70b, Claude-2, Mixtral-8x7B を用いてTop 10, Top 5, Top 1 DDx の生成実験を行った。
GPT-4は、トップ1の診断で55%、研究所のデータでトップ10で60%の精度で、精度は80%まで向上した。
肝臓機能、代謝・毒性パネル、血清・免疫検査を含む実験室検査は一般的に正しく解釈された。
- 参考スコア(独自算出の注目度): 20.651573628726148
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Differential diagnosis is crucial for medicine as it helps healthcare providers systematically distinguish between conditions that share similar symptoms. This study assesses the impact of lab test results on differential diagnoses (DDx) made by large language models (LLMs). Clinical vignettes from 50 case reports from PubMed Central were created incorporating patient demographics, symptoms, and lab results. Five LLMs GPT-4, GPT-3.5, Llama-2-70b, Claude-2, and Mixtral-8x7B were tested to generate Top 10, Top 5, and Top 1 DDx with and without lab data. A comprehensive evaluation involving GPT-4, a knowledge graph, and clinicians was conducted. GPT-4 performed best, achieving 55% accuracy for Top 1 diagnoses and 60% for Top 10 with lab data, with lenient accuracy up to 80%. Lab results significantly improved accuracy, with GPT-4 and Mixtral excelling, though exact match rates were low. Lab tests, including liver function, metabolic/toxicology panels, and serology/immune tests, were generally interpreted correctly by LLMs for differential diagnosis.
- Abstract(参考訳): 異なる診断は、医療提供者が類似の症状を共有する条件を体系的に区別するのに役立つため、医療にとって不可欠である。
本研究では,実験結果が大規模言語モデル(LLM)による差分診断(DDx)に与える影響を評価する。
PubMed Centralの50件の報告から得られた臨床ヴィグネットは、患者の人口統計、症状、検査結果などを取り入れて作成された。
5つのLCM (GPT-4, GPT-3.5, Llama-2-70b, Claude-2, Mixtral-8x7B) を試験し、Top 10、Top 5、Top 1 DDxを生成した。
GPT-4,知識グラフ,臨床医を含む総合的な評価を行った。
GPT-4は、トップ1の診断で55%、研究所のデータでトップ10で60%の精度で、精度は80%まで向上した。
実験結果はGPT-4とMixtralで精度が大幅に向上したが、正確な一致率は低かった。
肝機能検査,代謝・毒性検査,血清・免疫検査を含む実験室検査は,鑑別診断において一般的にLLMによって正しく解釈された。
関連論文リスト
- ClinicalGPT-R1: Pushing reasoning capability of generalist disease diagnosis with large language model [7.058358371583673]
臨床GPT-R1は疾患診断のための汎用的な大規模言語モデルである。
クリニカルGPT-R1は、2万件の実際の臨床記録に基づいてトレーニングされ、様々なトレーニング戦略を活用して診断の推論を強化する。
論文 参考訳(メタデータ) (2025-04-13T04:00:40Z) - Leveraging LLMs for Predicting Unknown Diagnoses from Clinical Notes [21.43498764977656]
放電サマリーはより完全な情報を提供する傾向があり、正確な診断を推測するのに役立ちます。
本研究は,大言語モデル(LLM)が臨床ノートから暗黙的に言及された診断を予測し,それに対応する薬剤にリンクできるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-28T02:15:57Z) - Multimodal Lead-Specific Modeling of ECG for Low-Cost Pulmonary Hypertension Assessment [71.69065905466567]
低所得国や中所得国(LMIC)では,高度な診断ツールが不足しているため,肺高血圧症(PH)が頻繁に診断される。
我々は,大人口12L-ECGデータに基づいて事前学習したモデルであるLS-EMVAE(Lead-Specific Electrocardiogram Multimodal Variational Autoencoder)を提案する。
LS-EMVAEは、推論時に12L-ECGと6L-ECGの両方でより良い予測を行い、診断ツールが限られている領域や全くない領域において、同等の解となる。
論文 参考訳(メタデータ) (2025-03-03T16:16:38Z) - CardioLab: Laboratory Values Estimation and Monitoring from Electrocardiogram Signals -- A Multimodal Deep Learning Approach [1.068128849363198]
我々はMIMIC-IVデータセットを用いてマルチモーダル深層学習モデルを構築し、推定(リアルタイム)と監視(将来の間隔での予測)実験値異常の可能性を示す。
AUROCスコアが0.70を超え、23の実験室値と26の観測室値に対して統計的に有意な精度で予測性能を示す。
論文 参考訳(メタデータ) (2024-11-22T12:10:03Z) - Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding [44.01429184037945]
自動ゼロショット医療符号化のための新しい合成LLMシステムであるALIGNを紹介する。
我々は、ALIGNを解剖学的治療化学(ATC)と医学史用語に調和させ、MedDRA(Medicical Dictionary for Regulatory Activity)コードに評価した。
論文 参考訳(メタデータ) (2024-11-20T09:59:12Z) - Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports [1.5972172622800358]
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。
GPT-4と同等の92.1%のF1スコアが得られた。
論文 参考訳(メタデータ) (2024-10-11T20:16:25Z) - Lab-AI -- Retrieval-Augmented Language Model for Personalized Lab Test Interpretation in Clinical Medicine [8.888389873289913]
ほとんどの患者ポータルは、年齢や性別などの要因を無視して、普遍的な正常な範囲を使用している。
本研究では,レトリーバル拡張世代(RAG)を信頼度の高い健康源から利用して,パーソナライズされた正常範囲を提供する対話型システムであるLab-AIを紹介する。
論文 参考訳(メタデータ) (2024-09-16T20:36:17Z) - Methodology and Real-World Applications of Dynamic Uncertain Causality Graph for Clinical Diagnosis with Explainability and Invariance [41.373856519548404]
Dynamic Uncertain Causality Graph (DUCG)アプローチは、さまざまなアプリケーションシナリオで因果性駆動、説明可能、不変である。
54件の主訴を含む46件のDUCGモデルが製造された。
実際の診断は100万件以上行われており、誤診断は17例に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-09T11:37:45Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z) - Electromyography Signal Classification Using Deep Learning [0.0]
我々はL2正規化を用いた深層学習モデルを実装し,EMG(Electromyography)データに基づいて学習を行った。
データは、コントロールグループ、ミオパチー、ALS患者から収集されたEMG信号からなる。
このモデルでは、正常症例(対照群)を100%の精度で他の患者と区別することができ、ミオパチーとALSをそれぞれ97.4と98.2の精度で分類することができた。
論文 参考訳(メタデータ) (2023-05-06T10:44:38Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z) - Identification of Ischemic Heart Disease by using machine learning
technique based on parameters measuring Heart Rate Variability [50.591267188664666]
本研究は,243名の非侵襲的特徴(年齢,性別,左室容積率,HRV15)を用いて,一連のANNの訓練と評価を行った。
最高の結果は、7つの入力パラメータと7つの隠れノードを使用して、トレーニングと検証データセットに対して98.9%と82%の精度で得られた。
論文 参考訳(メタデータ) (2020-10-29T19:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。