論文の概要: Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain
- arxiv url: http://arxiv.org/abs/2403.20288v1
- Date: Fri, 29 Mar 2024 16:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:05:12.195911
- Title: Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain
- Title(参考訳): LLMは正しい医師になれるか? : 医学領域における効果的な相互作用方法の検討
- Authors: Burcu Sayin, Pasquale Minervini, Jacopo Staiano, Andrea Passerini,
- Abstract要約: LLM(Large Language Models)は、医学的意思決定タスクにおいて医師を支援し、修正することができる。
我々は,メディトロン,Llama2,MistralなどいくつかのLSMを評価し,これらのモデルが様々なシナリオで医師と効果的に相互作用する能力について分析した。
- 参考スコア(独自算出の注目度): 21.96129653695565
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We explore the potential of Large Language Models (LLMs) to assist and potentially correct physicians in medical decision-making tasks. We evaluate several LLMs, including Meditron, Llama2, and Mistral, to analyze the ability of these models to interact effectively with physicians across different scenarios. We consider questions from PubMedQA and several tasks, ranging from binary (yes/no) responses to long answer generation, where the answer of the model is produced after an interaction with a physician. Our findings suggest that prompt design significantly influences the downstream accuracy of LLMs and that LLMs can provide valuable feedback to physicians, challenging incorrect diagnoses and contributing to more accurate decision-making. For example, when the physician is accurate 38% of the time, Mistral can produce the correct answer, improving accuracy up to 74% depending on the prompt being used, while Llama2 and Meditron models exhibit greater sensitivity to prompt choice. Our analysis also uncovers the challenges of ensuring that LLM-generated suggestions are pertinent and useful, emphasizing the need for further research in this area.
- Abstract(参考訳): 我々は,医学的意思決定タスクにおいて,医師を支援・修正するためのLarge Language Models(LLMs)の可能性を探る。
我々は,メディトロン,Llama2,MistralなどいくつかのLSMを評価し,これらのモデルが様々なシナリオで医師と効果的に相互作用する能力について分析した。
我々は、PubMedQAからの質問や、バイナリ(yes/no)応答から長解生成まで、いくつかのタスクについて検討する。
以上の結果から,LCMの下流の精度に急激な設計が大きな影響を与えることが示唆され,LCMは医師に貴重なフィードバックを与え,誤診断に挑戦し,より正確な意思決定に寄与することが示唆された。
例えば、医師が正確な38%の時間で正しい答えを得られる場合、Mistralは使用するプロンプトに応じて精度を最大74%向上させ、一方Llama2とMeditronモデルは選択を早めるための感度が向上する。
我々の分析は、LLM生成提案が適切かつ有用であることを保証する上での課題を明らかにし、この分野におけるさらなる研究の必要性を強調している。
関連論文リスト
- AI Hospital: Interactive Evaluation and Collaboration of LLMs as Intern
Doctors for Clinical Diagnosis [72.50974375416239]
リアルタイムのインタラクティブな診断環境を構築するために設計されたフレームワークであるAI Hospitalを紹介する。
様々な大規模言語モデル(LLM)は、対話的診断のためのインターン医師として機能する。
我々は,医療部長の監督の下で,反復的な議論と紛争解決プロセスを含む協調的なメカニズムを導入する。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - From Beginner to Expert: Modeling Medical Knowledge into General LLMs [22.475129648458136]
大規模言語モデル(LLM)に基づく人工知能(AI)システムは、自然言語の理解と生成において顕著な能力を示した。
これらのモデルは、医学的な知識を推論したり、医師のような方法で医学的な疑問に答えたりするといった、繊細な応用に関して重要な課題に直面している。
本研究は、事前訓練された一般LLMモデル(AntGLM-10B)から始まり、医療初心者から医療専門家(AntGLM-Med-10B)に微調整する。
論文 参考訳(メタデータ) (2023-12-02T05:54:06Z) - A Survey of Large Language Models in Medicine: Progress, Application,
and Challenge [86.4234483148876]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - MedEdit: Model Editing for Medical Question Answering with External
Knowledge Bases [47.32393367707529]
大規模言語モデル(LLM)は、医療質問応答(QA)のようなドメイン固有のタスクでよく機能しないことが多い。
本稿では,医学的事実を外部知識ベースから抽出するための総合的検索手法を提案し,それらをLCMのクエリプロンプトに組み込む。
編集したVicunaモデルでは44.46%から48.54%に精度が向上した。
論文 参考訳(メタデータ) (2023-09-27T21:26:03Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Augmenting Black-box LLMs with Medical Textbooks for Clinical Question
Answering [54.13933019557655]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z) - Diagnostic Reasoning Prompts Reveal the Potential for Large Language
Model Interpretability in Medicine [4.773117448586697]
そこで我々は,大言語モデル(LLM)が臨床推論を実行し,正確な診断を行うことができるかどうかを,新たな診断推論プロンプトを開発した。
GPT4は診断精度を犠牲にすることなく臨床医の一般的な臨床推論過程を模倣することができる。
論文 参考訳(メタデータ) (2023-08-13T19:04:07Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。