Fugu-MT 論文翻訳(概要): Towards Accurate Differential Diagnosis with Large Language Models

論文の概要: Towards Accurate Differential Diagnosis with Large Language Models

arxiv url: http://arxiv.org/abs/2312.00164v1
Date: Thu, 30 Nov 2023 19:55:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 16:37:16.402097
Title: Towards Accurate Differential Diagnosis with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた高精度差分診断に向けて
Authors: Daniel McDuff and Mike Schaekermann and Tao Tu and Anil Palepu and Amy Wang and Jake Garrison and Karan Singhal and Yash Sharma and Shekoofeh Azizi and Kavita Kulkarni and Le Hou and Yong Cheng and Yun Liu and S Sara Mahdavi and Sushant Prakash and Anupam Pathak and Christopher Semturs and Shwetak Patel and Dale R Webster and Ewa Dominowska and Juraj Gottweis and Joelle Barral and Katherine Chou and Greg S Corrado and Yossi Matias and Jake Sunshine and Alan Karthikesalingam and Vivek Natarajan
Abstract要約: LLM(Large Language Models)を利用した対話型インタフェースは、差分診断の側面をアシストし、自動化する新たな機会を提供する。 20人の臨床医が、ニューイングランド・ジャーナル・オブ・メディカル(New England Journal of Medicine)から入手した、302の挑戦的な現実世界の医療事例を評価した。我々のLSMは,難治性症例の診断的推論と精度を向上させる可能性が示唆された。
参考スコア（独自算出の注目度）: 37.48155380562073
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An accurate differential diagnosis (DDx) is a cornerstone of medical care, often reached through an iterative process of interpretation that combines clinical history, physical examination, investigations and procedures. Interactive interfaces powered by Large Language Models (LLMs) present new opportunities to both assist and automate aspects of this process. In this study, we introduce an LLM optimized for diagnostic reasoning, and evaluate its ability to generate a DDx alone or as an aid to clinicians. 20 clinicians evaluated 302 challenging, real-world medical cases sourced from the New England Journal of Medicine (NEJM) case reports. Each case report was read by two clinicians, who were randomized to one of two assistive conditions: either assistance from search engines and standard medical resources, or LLM assistance in addition to these tools. All clinicians provided a baseline, unassisted DDx prior to using the respective assistive tools. Our LLM for DDx exhibited standalone performance that exceeded that of unassisted clinicians (top-10 accuracy 59.1% vs 33.6%, [p = 0.04]). Comparing the two assisted study arms, the DDx quality score was higher for clinicians assisted by our LLM (top-10 accuracy 51.7%) compared to clinicians without its assistance (36.1%) (McNemar's Test: 45.7, p < 0.01) and clinicians with search (44.4%) (4.75, p = 0.03). Further, clinicians assisted by our LLM arrived at more comprehensive differential lists than those without its assistance. Our study suggests that our LLM for DDx has potential to improve clinicians' diagnostic reasoning and accuracy in challenging cases, meriting further real-world evaluation for its ability to empower physicians and widen patients' access to specialist-level expertise.
Abstract（参考訳）: 正確な鑑別診断(英: accurate differential diagnosis, ddx)は、臨床史、身体検査、調査、および手順を組み合わせた反復的な解釈プロセスを通じてしばしば達成される医療の基盤である。大規模言語モデル(llm)を活用した対話型インターフェースは、このプロセスの側面を支援し自動化する新たな機会を提供する。本研究では,診断的推論に最適化されたLCMを導入し,DDxを単独で生成する能力,あるいは臨床医の援助として評価する。 20人の臨床医が、new england journal of medicine (nejm)のケースレポートから引用された、挑戦的で現実世界の医療事例302例を評価した。それぞれの症例報告は、2人の臨床医によって読み上げられ、彼らは検索エンジンと標準的な医療資源からの援助、またはこれらのツールに加えてllmの支援の2つの補助条件のうちの1つにランダム化された。全ての臨床医は、それぞれの補助具を使用する前にDDxを無力化した。 DDx 用 LLM では,無治療医 (トップ10, 59.1% 対 33.6%, [p = 0.04] ) 以上の単独成績を示した。研究用アーム2本と比較すると, LLM(トップ10の精度51.7%)を補助しない臨床医(McNemar's Test: 45.7, p < 0.01)と検索した臨床医(44.4%, 4.75, p = 0.03)と比較すると, DDxの品質スコアが高かった。さらに, LLMを補助する臨床医は, その支援を受けていない臨床医よりも, より包括的な差分リストに到達した。 LLM for DDxは,患者が専門的専門知識を習得し,医師に力を与える能力により,臨床医の診断的推論と精度の向上が期待できる可能性が示唆された。

関連論文リスト

ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文参考訳（メタデータ） (2025-04-29T16:48:23Z)
MAP: Evaluation and Multi-Agent Enhancement of Large Language Models for Inpatient Pathways [26.013336927642765]
入院経路は包括的患者情報に基づく複雑な臨床診断を必要とする。 3つの臨床薬品を併用した多段階入院経路(MAP)フレームワークを提案する。 LLM HuatuoGPT2-13Bと比較して診断精度は25.10%向上した。
論文参考訳（メタデータ） (2025-03-17T14:14:28Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Improving Interactive Diagnostic Ability of a Large Language Model Agent Through Clinical Experience Learning [17.647875658030006]
本研究では,性能劣化現象の根底にあるメカニズムについて検討する。我々は,中国とアメリカの医療施設から350万件以上の電子医療記録を活用する,PPME ( Plug-and-play) LLM エージェントを開発した。本研究は, 初期疾患の診断・調査のための専門モデルを統合し, 指導的, 強化的学習技術を用いて訓練した。
論文参考訳（メタデータ） (2025-02-24T06:24:20Z)
Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文参考訳（メタデータ） (2024-10-27T23:48:47Z)
Towards Accountable AI-Assisted Eye Disease Diagnosis: Workflow Design, External Validation, and Continual Learning [5.940140611616894]
AIは診断精度が保証されるが、臨床および多様な集団の検証が不十分なため、現実の応用問題に直面している。本研究は、年齢関連黄斑変性(AMD)診断と分類重症度に関するケーススタディを通じて、医療用AIの下流アカウンタビリティのギャップに対処する。
論文参考訳（メタデータ） (2024-09-23T15:01:09Z)
MAGDA: Multi-agent guideline-driven diagnostic assistance [43.15066219293877]
救急部門、地方病院、または未開発地域の診療所では、臨床医は訓練された放射線技師による高速な画像分析を欠いていることが多い。本研究では,ゼロショットガイドライン駆動意思決定支援のための新しいアプローチを提案する。我々は、患者診断に到達するために協調する、対照的な視覚言語モデルで強化された複数のLLMエージェントのシステムをモデル化する。
論文参考訳（メタデータ） (2024-09-10T09:10:30Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Automating PTSD Diagnostics in Clinical Interviews: Leveraging Large Language Models for Trauma Assessments [7.219693607724636]
我々は、ワークフローにカスタマイズされた大言語モデル(LLM)を統合することで、この不足に対処することを目指している。臨床医が担当する診断面接411件を収集し,高品質なデータを得るための新しいアプローチを考案した。インタビュー内容に基づいたPTSD診断評価を自動化するための総合的なフレームワークを構築した。
論文参考訳（メタデータ） (2024-05-18T05:04:18Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文参考訳（メタデータ） (2024-01-11T04:25:06Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。