論文の概要: Clinical knowledge in LLMs does not translate to human interactions
- arxiv url: http://arxiv.org/abs/2504.18919v1
- Date: Sat, 26 Apr 2025 13:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.04763
- Title: Clinical knowledge in LLMs does not translate to human interactions
- Title(参考訳): LLMにおける臨床知識はヒトの相互作用に関連しない
- Authors: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi,
- Abstract要約: 大規模言語モデル (LLMs) が, 基礎疾患を特定し, 10 つの医療シナリオにおいて行動経路を選択する上で, 一般市民を支援することができるかどうかを検証した。
LLMは単独でテストを行い、94.9%のケースの条件を正確に特定し、平均56.3%のケースで配置した。
同じLSMを使用する参加者は34.5%未満のケースで関連する条件を特定し、44.2%未満で配置した。
- 参考スコア(独自算出の注目度): 2.523178830945285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global healthcare providers are exploring use of large language models (LLMs) to provide medical advice to the public. LLMs now achieve nearly perfect scores on medical licensing exams, but this does not necessarily translate to accurate performance in real-world settings. We tested if LLMs can assist members of the public in identifying underlying conditions and choosing a course of action (disposition) in ten medical scenarios in a controlled study with 1,298 participants. Participants were randomly assigned to receive assistance from an LLM (GPT-4o, Llama 3, Command R+) or a source of their choice (control). Tested alone, LLMs complete the scenarios accurately, correctly identifying conditions in 94.9% of cases and disposition in 56.3% on average. However, participants using the same LLMs identified relevant conditions in less than 34.5% of cases and disposition in less than 44.2%, both no better than the control group. We identify user interactions as a challenge to the deployment of LLMs for medical advice. Standard benchmarks for medical knowledge and simulated patient interactions do not predict the failures we find with human participants. Moving forward, we recommend systematic human user testing to evaluate interactive capabilities prior to public deployments in healthcare.
- Abstract(参考訳): グローバルヘルスケアプロバイダは、公衆に医療アドバイスを提供するために、大きな言語モデル(LLM)の使用を検討している。
LLMは、現在、医療ライセンス試験においてほぼ完璧なスコアを達成しているが、これは必ずしも実際の環境での正確なパフォーマンスに必ずしも変換されない。
被験者1,298名を対象に, LLMが患者に対して, 基礎疾患の特定と10の医療シナリオにおける行動経路の選択を支援できるかどうかを検討した。
参加者はランダムにLLM(GPT-4o, Llama 3, Command R+)またはその選択源(制御)からの援助を受けるように割り当てられた。
LLMは単独でテストを行い、94.9%のケースの条件を正確に特定し、平均56.3%のケースで配置した。
しかし、同じLSMを使用した被験者は、34.5%未満のケースで関連のある条件を特定し、44.2%未満の濃度で配置した。
我々は、医療アドバイスのためのLCMの展開の課題として、ユーザインタラクションを識別する。
医療知識とシミュレートされた患者との相互作用の標準ベンチマークは、人間の被験者による失敗を予測するものではない。
今後は、医療における公開デプロイメントに先立って、インタラクティブな機能を評価するために、体系的なヒューマンユーザテストを推奨する。
関連論文リスト
- Enhancing Patient-Centric Communication: Leveraging LLMs to Simulate Patient Perspectives [19.462374723301792]
大きな言語モデル(LLM)はロールプレイングのシナリオにおいて印象的な機能を示している。
人間の行動を模倣することで、LLMは具体的な人口統計や専門的なプロファイルに基づいて反応を予測できる。
多様な背景を持つ個人をシミュレーションする上でのLLMの有効性を評価し,これらのシミュレーション行動の一貫性を解析した。
論文 参考訳(メタデータ) (2025-01-12T22:49:32Z) - Humans and Large Language Models in Clinical Decision Support: A Study with Medical Calculators [20.782328949004434]
大規模言語モデル (LLM) は、ライセンス試験を用いて一般的な医学的知識として評価されている。
本研究は,35個の臨床電卓を対象に,1009個の質問応答ペアを用いたモデルについて検討した。
2人のアノテータは名目上、平均解答精度79.5%のLLMよりも優れていた。
論文 参考訳(メタデータ) (2024-11-08T15:50:19Z) - The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams [13.469665087042614]
従来の医学教育では、高度な臨床医が、EHRのプロトタイプに基づいて質問や回答を定式化する必要がある。
メインストリームのLSMは,臨床医に近いレベルにおいて,現実のERHで質問や回答を生成できることがわかった。
論文 参考訳(メタデータ) (2024-10-31T09:33:37Z) - Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。
この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文 参考訳(メタデータ) (2024-10-27T23:48:47Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - Evaluating the Impact of a Specialized LLM on Physician Experience in Clinical Decision Support: A Comparison of Ask Avo and ChatGPT-4 [0.3999851878220878]
臨床意思決定支援システムを強化するための言語モデル(LLM)は、関心が高まりつつあるトピックである。
幻覚や明確な引用の欠如といった現在の欠点は、急速に成長する臨床環境での使用には信頼性が低い。
本研究では,独自のモデル拡張言語検索システムを組み込んだAvoMDによるAsk Avo由来のソフトウェアを評価する。
論文 参考訳(メタデータ) (2024-09-06T17:53:29Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Auditing Algorithmic Fairness in Machine Learning for Health with
Severity-Based LOGAN [70.76142503046782]
臨床予測タスクにおいて,局所バイアスを自動検出するSLOGANを用いて,機械学習ベースの医療ツールを補足することを提案する。
LOGANは、患者の重症度と過去の医療史における集団バイアス検出を文脈化することにより、既存のツールであるLOcal Group biAs detectioNに適応する。
SLOGANは, クラスタリング品質を維持しながら, 患者群の75%以上において, SLOGANよりも高い公平性を示す。
論文 参考訳(メタデータ) (2022-11-16T08:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。