論文の概要: Towards Accurate Differential Diagnosis with Large Language Models
- arxiv url: http://arxiv.org/abs/2312.00164v1
- Date: Thu, 30 Nov 2023 19:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 16:37:16.402097
- Title: Towards Accurate Differential Diagnosis with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた高精度差分診断に向けて
- Authors: Daniel McDuff and Mike Schaekermann and Tao Tu and Anil Palepu and Amy
Wang and Jake Garrison and Karan Singhal and Yash Sharma and Shekoofeh Azizi
and Kavita Kulkarni and Le Hou and Yong Cheng and Yun Liu and S Sara Mahdavi
and Sushant Prakash and Anupam Pathak and Christopher Semturs and Shwetak
Patel and Dale R Webster and Ewa Dominowska and Juraj Gottweis and Joelle
Barral and Katherine Chou and Greg S Corrado and Yossi Matias and Jake
Sunshine and Alan Karthikesalingam and Vivek Natarajan
- Abstract要約: LLM(Large Language Models)を利用した対話型インタフェースは、差分診断の側面をアシストし、自動化する新たな機会を提供する。
20人の臨床医が、ニューイングランド・ジャーナル・オブ・メディカル(New England Journal of Medicine)から入手した、302の挑戦的な現実世界の医療事例を評価した。
我々のLSMは,難治性症例の診断的推論と精度を向上させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 37.48155380562073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An accurate differential diagnosis (DDx) is a cornerstone of medical care,
often reached through an iterative process of interpretation that combines
clinical history, physical examination, investigations and procedures.
Interactive interfaces powered by Large Language Models (LLMs) present new
opportunities to both assist and automate aspects of this process. In this
study, we introduce an LLM optimized for diagnostic reasoning, and evaluate its
ability to generate a DDx alone or as an aid to clinicians. 20 clinicians
evaluated 302 challenging, real-world medical cases sourced from the New
England Journal of Medicine (NEJM) case reports. Each case report was read by
two clinicians, who were randomized to one of two assistive conditions: either
assistance from search engines and standard medical resources, or LLM
assistance in addition to these tools. All clinicians provided a baseline,
unassisted DDx prior to using the respective assistive tools. Our LLM for DDx
exhibited standalone performance that exceeded that of unassisted clinicians
(top-10 accuracy 59.1% vs 33.6%, [p = 0.04]). Comparing the two assisted study
arms, the DDx quality score was higher for clinicians assisted by our LLM
(top-10 accuracy 51.7%) compared to clinicians without its assistance (36.1%)
(McNemar's Test: 45.7, p < 0.01) and clinicians with search (44.4%) (4.75, p =
0.03). Further, clinicians assisted by our LLM arrived at more comprehensive
differential lists than those without its assistance. Our study suggests that
our LLM for DDx has potential to improve clinicians' diagnostic reasoning and
accuracy in challenging cases, meriting further real-world evaluation for its
ability to empower physicians and widen patients' access to specialist-level
expertise.
- Abstract(参考訳): 正確な鑑別診断(英: accurate differential diagnosis, ddx)は、臨床史、身体検査、調査、および手順を組み合わせた反復的な解釈プロセスを通じてしばしば達成される医療の基盤である。
大規模言語モデル(llm)を活用した対話型インターフェースは、このプロセスの側面を支援し自動化する新たな機会を提供する。
本研究では,診断的推論に最適化されたLCMを導入し,DDxを単独で生成する能力,あるいは臨床医の援助として評価する。
20人の臨床医が、new england journal of medicine (nejm)のケースレポートから引用された、挑戦的で現実世界の医療事例302例を評価した。
それぞれの症例報告は、2人の臨床医によって読み上げられ、彼らは検索エンジンと標準的な医療資源からの援助、またはこれらのツールに加えてllmの支援の2つの補助条件のうちの1つにランダム化された。
全ての臨床医は、それぞれの補助具を使用する前にDDxを無力化した。
DDx 用 LLM では,無治療医 (トップ10, 59.1% 対 33.6%, [p = 0.04] ) 以上の単独成績を示した。
研究用アーム2本と比較すると, LLM(トップ10の精度51.7%)を補助しない臨床医(McNemar's Test: 45.7, p < 0.01)と検索した臨床医(44.4%, 4.75, p = 0.03)と比較すると, DDxの品質スコアが高かった。
さらに, LLMを補助する臨床医は, その支援を受けていない臨床医よりも, より包括的な差分リストに到達した。
LLM for DDxは,患者が専門的専門知識を習得し,医師に力を与える能力により,臨床医の診断的推論と精度の向上が期待できる可能性が示唆された。
関連論文リスト
- AI Hospital: Interactive Evaluation and Collaboration of LLMs as Intern
Doctors for Clinical Diagnosis [72.50974375416239]
リアルタイムのインタラクティブな診断環境を構築するために設計されたフレームワークであるAI Hospitalを紹介する。
様々な大規模言語モデル(LLM)は、対話的診断のためのインターン医師として機能する。
我々は,医療部長の監督の下で,反復的な議論と紛争解決プロセスを含む協調的なメカニズムを導入する。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Zero-Shot Clinical Trial Patient Matching with LLMs [42.341575249440346]
大規模言語モデル(LLM)は、自動スクリーニングの有望なソリューションを提供する。
我々は,患者の診療歴を非構造的臨床テキストとして考慮し,その患者が包括的基準を満たしているかどうかを評価するLCMベースのシステムを構築した。
提案システムは,n2c2 2018コホート選択ベンチマークにおいて,最先端のスコアを達成している。
論文 参考訳(メタデータ) (2024-02-05T00:06:08Z) - Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。
AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。
AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (2024-01-11T04:25:06Z) - Deciphering Diagnoses: How Large Language Models Explanations Influence
Clinical Decision Making [0.0]
大きな言語モデル(LLM)は、医学的な決定のための平文の説明を生成するための有望なツールとして現れています。
本研究は, 患者の苦情に基づく診断のための説明書作成におけるLCMの有効性と信頼性について検討した。
論文 参考訳(メタデータ) (2023-10-03T00:08:23Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Matching Patients to Clinical Trials with Large Language Models [34.53214032977734]
本稿では,大規模言語モデル(LLM)を用いた新しいアーキテクチャであるTrialGPTを紹介した。
以上より,TrialGPTは184例および18,238例の公用コホートで評価した。
論文 参考訳(メタデータ) (2023-07-27T17:56:56Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。