Fugu-MT 論文翻訳(概要): Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes

論文の概要: Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes

arxiv url: http://arxiv.org/abs/2411.02523v1
Date: Fri, 01 Nov 2024 02:48:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.313781
Title: Evaluating the Impact of Lab Test Results on Large Language Models Generated Differential Diagnoses from Clinical Case Vignettes
Title（参考訳）: 臨床症例ヴィグネットの鑑別診断における実験結果が大規模言語モデルに及ぼす影響の評価
Authors: Balu Bhasuran, Qiao Jin, Yuzhang Xie, Carl Yang, Karim Hanna, Jennifer Costa, Cindy Shavor, Zhiyong Lu, Zhe He,
Abstract要約: 本研究では,実験結果が大規模言語モデル(LLM)による差分診断に及ぼす影響を評価する。 LLMs GPT-4, GPT-3.5, Llama-2-70b, Claude-2, Mixtral-8x7B を用いてTop 10, Top 5, Top 1 DDx の生成実験を行った。 GPT-4は、トップ1の診断で55%、研究所のデータでトップ10で60%の精度で、精度は80%まで向上した。肝臓機能、代謝・毒性パネル、血清・免疫検査を含む実験室検査は一般的に正しく解釈された。
参考スコア（独自算出の注目度）: 20.651573628726148
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Differential diagnosis is crucial for medicine as it helps healthcare providers systematically distinguish between conditions that share similar symptoms. This study assesses the impact of lab test results on differential diagnoses (DDx) made by large language models (LLMs). Clinical vignettes from 50 case reports from PubMed Central were created incorporating patient demographics, symptoms, and lab results. Five LLMs GPT-4, GPT-3.5, Llama-2-70b, Claude-2, and Mixtral-8x7B were tested to generate Top 10, Top 5, and Top 1 DDx with and without lab data. A comprehensive evaluation involving GPT-4, a knowledge graph, and clinicians was conducted. GPT-4 performed best, achieving 55% accuracy for Top 1 diagnoses and 60% for Top 10 with lab data, with lenient accuracy up to 80%. Lab results significantly improved accuracy, with GPT-4 and Mixtral excelling, though exact match rates were low. Lab tests, including liver function, metabolic/toxicology panels, and serology/immune tests, were generally interpreted correctly by LLMs for differential diagnosis.
Abstract（参考訳）: 異なる診断は、医療提供者が類似の症状を共有する条件を体系的に区別するのに役立つため、医療にとって不可欠である。本研究では,実験結果が大規模言語モデル(LLM)による差分診断(DDx)に与える影響を評価する。 PubMed Centralの50件の報告から得られた臨床ヴィグネットは、患者の人口統計、症状、検査結果などを取り入れて作成された。 5つのLCM (GPT-4, GPT-3.5, Llama-2-70b, Claude-2, Mixtral-8x7B) を試験し、Top 10、Top 5、Top 1 DDxを生成した。 GPT-4,知識グラフ,臨床医を含む総合的な評価を行った。 GPT-4は、トップ1の診断で55%、研究所のデータでトップ10で60%の精度で、精度は80%まで向上した。実験結果はGPT-4とMixtralで精度が大幅に向上したが、正確な一致率は低かった。肝機能検査,代謝・毒性検査,血清・免疫検査を含む実験室検査は,鑑別診断において一般的にLLMによって正しく解釈された。

関連論文リスト

PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文参考訳（メタデータ） (2026-03-02T00:50:39Z)
Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。 DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文参考訳（メタデータ） (2025-10-28T17:19:47Z)
Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。 LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文参考訳（メタデータ） (2025-10-21T18:10:45Z)
Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening [37.69303106863453]
大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。 300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
論文参考訳（メタデータ） (2025-07-02T01:35:59Z)
Universal Laboratory Model: prognosis of abnormal clinical outcomes based on routine tests [0.0]
日常的な生化学パネルとCBC(Common Blood Count)テストを組み合わせると、患者によって異なるテスト値ペアのセットが提示される。本手法を臨床検査データに適用し,高尿酸,グルコース,コレステロール,低フェリチン濃度を予測する。その結果, 高尿酸, グルコース, コレステロール, 低フェリチン濃度の同時予測では, 最大8%のAUCが得られた。
論文参考訳（メタデータ） (2025-06-18T10:10:02Z)
MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。 MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-05-26T22:55:49Z)
Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文参考訳（メタデータ） (2025-05-23T14:06:42Z)
MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文参考訳（メタデータ） (2025-05-16T22:34:36Z)
ClinicalGPT-R1: Pushing reasoning capability of generalist disease diagnosis with large language model [7.058358371583673]
臨床GPT-R1は疾患診断のための汎用的な大規模言語モデルである。クリニカルGPT-R1は、2万件の実際の臨床記録に基づいてトレーニングされ、様々なトレーニング戦略を活用して診断の推論を強化する。
論文参考訳（メタデータ） (2025-04-13T04:00:40Z)
Leveraging LLMs for Predicting Unknown Diagnoses from Clinical Notes [21.43498764977656]
放電サマリーはより完全な情報を提供する傾向があり、正確な診断を推測するのに役立ちます。本研究は,大言語モデル(LLM)が臨床ノートから暗黙的に言及された診断を予測し,それに対応する薬剤にリンクできるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-28T02:15:57Z)
Multimodal Lead-Specific Modeling of ECG for Low-Cost Pulmonary Hypertension Assessment [71.69065905466567]
低所得国や中所得国(LMIC)では,高度な診断ツールが不足しているため,肺高血圧症(PH)が頻繁に診断される。我々は,大人口12L-ECGデータに基づいて事前学習したモデルであるLS-EMVAE(Lead-Specific Electrocardiogram Multimodal Variational Autoencoder)を提案する。 LS-EMVAEは、推論時に12L-ECGと6L-ECGの両方でより良い予測を行い、診断ツールが限られている領域や全くない領域において、同等の解となる。
論文参考訳（メタデータ） (2025-03-03T16:16:38Z)
CardioLab: Laboratory Values Estimation and Monitoring from Electrocardiogram Signals -- A Multimodal Deep Learning Approach [1.068128849363198]
我々はMIMIC-IVデータセットを用いてマルチモーダル深層学習モデルを構築し、推定(リアルタイム)と監視(将来の間隔での予測)実験値異常の可能性を示す。 AUROCスコアが0.70を超え、23の実験室値と26の観測室値に対して統計的に有意な精度で予測性能を示す。
論文参考訳（メタデータ） (2024-11-22T12:10:03Z)
Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding [44.01429184037945]
自動ゼロショット医療符号化のための新しい合成LLMシステムであるALIGNを紹介する。我々は、ALIGNを解剖学的治療化学(ATC)と医学史用語に調和させ、MedDRA(Medicical Dictionary for Regulatory Activity)コードに評価した。
論文参考訳（メタデータ） (2024-11-20T09:59:12Z)
Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports [1.5972172622800358]
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。 GPT-4と同等の92.1%のF1スコアが得られた。
論文参考訳（メタデータ） (2024-10-11T20:16:25Z)
Lab-AI -- Retrieval-Augmented Language Model for Personalized Lab Test Interpretation in Clinical Medicine [8.888389873289913]
ほとんどの患者ポータルは、年齢や性別などの要因を無視して、普遍的な正常な範囲を使用している。本研究では,レトリーバル拡張世代(RAG)を信頼度の高い健康源から利用して,パーソナライズされた正常範囲を提供する対話型システムであるLab-AIを紹介する。
論文参考訳（メタデータ） (2024-09-16T20:36:17Z)
Methodology and Real-World Applications of Dynamic Uncertain Causality Graph for Clinical Diagnosis with Explainability and Invariance [41.373856519548404]
Dynamic Uncertain Causality Graph (DUCG)アプローチは、さまざまなアプリケーションシナリオで因果性駆動、説明可能、不変である。 54件の主訴を含む46件のDUCGモデルが製造された。実際の診断は100万件以上行われており、誤診断は17例に過ぎなかった。
論文参考訳（メタデータ） (2024-06-09T11:37:45Z)
Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文参考訳（メタデータ） (2024-04-26T16:39:50Z)
Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文参考訳（メタデータ） (2024-01-26T01:35:50Z)
Electromyography Signal Classification Using Deep Learning [0.0]
我々はL2正規化を用いた深層学習モデルを実装し,EMG(Electromyography)データに基づいて学習を行った。データは、コントロールグループ、ミオパチー、ALS患者から収集されたEMG信号からなる。このモデルでは、正常症例(対照群)を100%の精度で他の患者と区別することができ、ミオパチーとALSをそれぞれ97.4と98.2の精度で分類することができた。
論文参考訳（メタデータ） (2023-05-06T10:44:38Z)
Learning to diagnose cirrhosis from radiological and histological labels with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文参考訳（メタデータ） (2023-02-16T17:06:23Z)
Deep learning-based COVID-19 pneumonia classification using chest CT images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文参考訳（メタデータ） (2021-02-18T21:14:52Z)
HINT: Hierarchical Interaction Network for Trial Outcome Prediction Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文参考訳（メタデータ） (2021-02-08T15:09:07Z)
Collaborative residual learners for automatic icd10 prediction using prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文参考訳（メタデータ） (2020-12-16T07:07:27Z)
Identification of Ischemic Heart Disease by using machine learning technique based on parameters measuring Heart Rate Variability [50.591267188664666]
本研究は,243名の非侵襲的特徴(年齢,性別,左室容積率,HRV15)を用いて,一連のANNの訓練と評価を行った。最高の結果は、7つの入力パラメータと7つの隠れノードを使用して、トレーニングと検証データセットに対して98.9%と82%の精度で得られた。
論文参考訳（メタデータ） (2020-10-29T19:14:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。