論文の概要: Human-LLM Dialogue Improves Diagnostic Accuracy in Emergency Care
- arxiv url: http://arxiv.org/abs/2605.08533v1
- Date: Fri, 08 May 2026 22:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.716123
- Title: Human-LLM Dialogue Improves Diagnostic Accuracy in Emergency Care
- Title(参考訳): 救急医療における診断精度向上のためのヒューマンLLM対話
- Authors: Burcu Sayin, Ngoc Vo Hong, Ipek Baris Schlicht, Jacopo Staiano, Pasquale Minervini, Sara Allievi, Nicola Susca, Nicola Osti, Alberto Maino, Vito Racanelli, Andrea Passerini,
- Abstract要約: MedSynは、医師が全ての臨床記録を提供するLCMに問い合わせると同時に、最初は主訴のみを見ることができる。
ブラインド評価では、住民のハードケースの正しさは0.589から0.734に上昇した。
住民は最大のF1ゲイン(=0.138; p 0.0001)を示した。
- 参考スコア(独自算出の注目度): 17.055142604871506
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Clinical decision-making in emergency medicine demands rapid, accurate diagnoses under uncertainty. Despite benchmark progress, evidence for LLMs as interactive aids in live physician workflows remains sparse. MedSyn lets physicians iteratively query an LLM provided with the full clinical record while initially viewing only the chief complaint. Seven physicians (three seniors, four residents) completed baseline and AI-assisted sessions across 52 MIMIC-IV cases stratified by difficulty. Blinded evaluation showed residents' Hard-case correctness rose from 0.589 to 0.734; difficulty-standardised completely-correct rates confirmed a medium effect (Δ = 0.092; p = 0.071; d = 0.47). Automated metrics corroborated these gains: standardised any-match accuracy improved by 0.156 (p < 0.0001), and residents showed the largest F1 gain (Δ = 0.138; p < 0.0001). Dialogue analysis revealed expertise-dependent strategies (seniors asked targeted, hypothesis-driven questions; residents relied on broader queries) and cross-expertise concordance increased (Δ = 0.145; p < 0.0001). Interactive LLM support meaningfully enhances diagnostic reasoning.
- Abstract(参考訳): 緊急医療における臨床的意思決定は、不確実性の下で迅速かつ正確な診断を必要とする。
ベンチマークの進歩にも拘わらず、ライブのワークフローにおける対話型補助としてのLLMの証拠は乏しい。
MedSynは、医師が患者の主訴のみを閲覧しながら、完全な臨床記録を備えたLCMを反復的に問い合わせることを可能にする。
7名の医師(高齢者3名、住民4名)が、難易度で成層化した52例のMIMIC-IV患者に対して、ベースラインとAI支援セッションを完了した。
ブラインド評価では、住民のハードケースの正しさは0.589から0.734に上昇し、中等効果(Δ = 0.092; p = 0.071; d = 0.47)が確認された。
精度を0.156(p < 0.0001)改善し、住民は最大のF1ゲイン(Δ = 0.138; p < 0.0001)を示した。
対話分析では, 専門性に依存した戦略(主観的, 仮説駆動的質問, 住民はより広範な質問に頼っていた)と, クロスエキスパート・コンコーディネート(Δ = 0.145; p < 0.0001)が増加した。
対話型LDMサポートは、診断推論を有意義に強化する。
関連論文リスト
- Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic [21.374164324051012]
アーティキュレート・メディカル・インテリジェンス・エクスプローラー(AMIE)
100人の成人患者が任命の5日前にAMIEテキストチャットのやりとりを完了した。
ヒューマン・セーフティ・スーパーバイザーは、患者とAMIEのインタラクションをリアルタイムで監視した。
論文 参考訳(メタデータ) (2026-03-09T14:43:40Z) - LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。
本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。
LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文 参考訳(メタデータ) (2026-02-18T03:59:46Z) - A Real-World Evaluation of LLM Medication Safety Reviews in NHS Primary Care [5.167350493769989]
本研究は,NHSプライマリケアデータを用いたLSMベースの医薬品安全性評価システムの最初の評価である。
患者を戦略的に採取し,幅広い臨床複雑性と薬剤の安全性リスクを捉えた。
当システムでは,臨床症状の認識に強い性能を示した。
論文 参考訳(メタデータ) (2025-12-24T11:58:49Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。