論文の概要: Towards Accurate Differential Diagnosis with Large Language Models
- arxiv url: http://arxiv.org/abs/2312.00164v1
- Date: Thu, 30 Nov 2023 19:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 16:37:16.402097
- Title: Towards Accurate Differential Diagnosis with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた高精度差分診断に向けて
- Authors: Daniel McDuff and Mike Schaekermann and Tao Tu and Anil Palepu and Amy
Wang and Jake Garrison and Karan Singhal and Yash Sharma and Shekoofeh Azizi
and Kavita Kulkarni and Le Hou and Yong Cheng and Yun Liu and S Sara Mahdavi
and Sushant Prakash and Anupam Pathak and Christopher Semturs and Shwetak
Patel and Dale R Webster and Ewa Dominowska and Juraj Gottweis and Joelle
Barral and Katherine Chou and Greg S Corrado and Yossi Matias and Jake
Sunshine and Alan Karthikesalingam and Vivek Natarajan
- Abstract要約: LLM(Large Language Models)を利用した対話型インタフェースは、差分診断の側面をアシストし、自動化する新たな機会を提供する。
20人の臨床医が、ニューイングランド・ジャーナル・オブ・メディカル(New England Journal of Medicine)から入手した、302の挑戦的な現実世界の医療事例を評価した。
我々のLSMは,難治性症例の診断的推論と精度を向上させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 37.48155380562073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An accurate differential diagnosis (DDx) is a cornerstone of medical care,
often reached through an iterative process of interpretation that combines
clinical history, physical examination, investigations and procedures.
Interactive interfaces powered by Large Language Models (LLMs) present new
opportunities to both assist and automate aspects of this process. In this
study, we introduce an LLM optimized for diagnostic reasoning, and evaluate its
ability to generate a DDx alone or as an aid to clinicians. 20 clinicians
evaluated 302 challenging, real-world medical cases sourced from the New
England Journal of Medicine (NEJM) case reports. Each case report was read by
two clinicians, who were randomized to one of two assistive conditions: either
assistance from search engines and standard medical resources, or LLM
assistance in addition to these tools. All clinicians provided a baseline,
unassisted DDx prior to using the respective assistive tools. Our LLM for DDx
exhibited standalone performance that exceeded that of unassisted clinicians
(top-10 accuracy 59.1% vs 33.6%, [p = 0.04]). Comparing the two assisted study
arms, the DDx quality score was higher for clinicians assisted by our LLM
(top-10 accuracy 51.7%) compared to clinicians without its assistance (36.1%)
(McNemar's Test: 45.7, p < 0.01) and clinicians with search (44.4%) (4.75, p =
0.03). Further, clinicians assisted by our LLM arrived at more comprehensive
differential lists than those without its assistance. Our study suggests that
our LLM for DDx has potential to improve clinicians' diagnostic reasoning and
accuracy in challenging cases, meriting further real-world evaluation for its
ability to empower physicians and widen patients' access to specialist-level
expertise.
- Abstract(参考訳): 正確な鑑別診断(英: accurate differential diagnosis, ddx)は、臨床史、身体検査、調査、および手順を組み合わせた反復的な解釈プロセスを通じてしばしば達成される医療の基盤である。
大規模言語モデル(llm)を活用した対話型インターフェースは、このプロセスの側面を支援し自動化する新たな機会を提供する。
本研究では,診断的推論に最適化されたLCMを導入し,DDxを単独で生成する能力,あるいは臨床医の援助として評価する。
20人の臨床医が、new england journal of medicine (nejm)のケースレポートから引用された、挑戦的で現実世界の医療事例302例を評価した。
それぞれの症例報告は、2人の臨床医によって読み上げられ、彼らは検索エンジンと標準的な医療資源からの援助、またはこれらのツールに加えてllmの支援の2つの補助条件のうちの1つにランダム化された。
全ての臨床医は、それぞれの補助具を使用する前にDDxを無力化した。
DDx 用 LLM では,無治療医 (トップ10, 59.1% 対 33.6%, [p = 0.04] ) 以上の単独成績を示した。
研究用アーム2本と比較すると, LLM(トップ10の精度51.7%)を補助しない臨床医(McNemar's Test: 45.7, p < 0.01)と検索した臨床医(44.4%, 4.75, p = 0.03)と比較すると, DDxの品質スコアが高かった。
さらに, LLMを補助する臨床医は, その支援を受けていない臨床医よりも, より包括的な差分リストに到達した。
LLM for DDxは,患者が専門的専門知識を習得し,医師に力を与える能力により,臨床医の診断的推論と精度の向上が期待できる可能性が示唆された。
関連論文リスト
- Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。
この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文 参考訳(メタデータ) (2024-10-27T23:48:47Z) - Towards Accountable AI-Assisted Eye Disease Diagnosis: Workflow Design, External Validation, and Continual Learning [5.940140611616894]
AIは診断精度が保証されるが、臨床および多様な集団の検証が不十分なため、現実の応用問題に直面している。
本研究は、年齢関連黄斑変性(AMD)診断と分類重症度に関するケーススタディを通じて、医療用AIの下流アカウンタビリティのギャップに対処する。
論文 参考訳(メタデータ) (2024-09-23T15:01:09Z) - MAGDA: Multi-agent guideline-driven diagnostic assistance [43.15066219293877]
救急部門、地方病院、または未開発地域の診療所では、臨床医は訓練された放射線技師による高速な画像分析を欠いていることが多い。
本研究では,ゼロショットガイドライン駆動意思決定支援のための新しいアプローチを提案する。
我々は、患者診断に到達するために協調する、対照的な視覚言語モデルで強化された複数のLLMエージェントのシステムをモデル化する。
論文 参考訳(メタデータ) (2024-09-10T09:10:30Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Automating PTSD Diagnostics in Clinical Interviews: Leveraging Large Language Models for Trauma Assessments [7.219693607724636]
我々は、ワークフローにカスタマイズされた大言語モデル(LLM)を統合することで、この不足に対処することを目指している。
臨床医が担当する診断面接411件を収集し,高品質なデータを得るための新しいアプローチを考案した。
インタビュー内容に基づいたPTSD診断評価を自動化するための総合的なフレームワークを構築した。
論文 参考訳(メタデータ) (2024-05-18T05:04:18Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。
AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。
AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (2024-01-11T04:25:06Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。