論文の概要: Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain
- arxiv url: http://arxiv.org/abs/2403.20288v2
- Date: Mon, 6 May 2024 14:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 23:06:30.720048
- Title: Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain
- Title(参考訳): LLMは正しい医師になれるか? : 医学領域における効果的な相互作用方法の検討
- Authors: Burcu Sayin, Pasquale Minervini, Jacopo Staiano, Andrea Passerini,
- Abstract要約: LLM(Large Language Models)は、医学的意思決定タスクにおいて医師を支援し、修正することができる。
我々は,メディトロン,Llama2,MistralなどいくつかのLSMを評価し,これらのモデルが様々なシナリオで医師と効果的に相互作用する能力について分析した。
- 参考スコア(独自算出の注目度): 21.96129653695565
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We explore the potential of Large Language Models (LLMs) to assist and potentially correct physicians in medical decision-making tasks. We evaluate several LLMs, including Meditron, Llama2, and Mistral, to analyze the ability of these models to interact effectively with physicians across different scenarios. We consider questions from PubMedQA and several tasks, ranging from binary (yes/no) responses to long answer generation, where the answer of the model is produced after an interaction with a physician. Our findings suggest that prompt design significantly influences the downstream accuracy of LLMs and that LLMs can provide valuable feedback to physicians, challenging incorrect diagnoses and contributing to more accurate decision-making. For example, when the physician is accurate 38% of the time, Mistral can produce the correct answer, improving accuracy up to 74% depending on the prompt being used, while Llama2 and Meditron models exhibit greater sensitivity to prompt choice. Our analysis also uncovers the challenges of ensuring that LLM-generated suggestions are pertinent and useful, emphasizing the need for further research in this area.
- Abstract(参考訳): 我々は,医学的意思決定タスクにおいて,医師を支援・修正するためのLarge Language Models(LLMs)の可能性を探る。
我々は,メディトロン,Llama2,MistralなどいくつかのLSMを評価し,これらのモデルが様々なシナリオで医師と効果的に相互作用する能力について分析した。
我々は、PubMedQAからの質問や、バイナリ(yes/no)応答から長解生成まで、いくつかのタスクについて検討する。
以上の結果から,LCMの下流の精度に急激な設計が大きな影響を与えることが示唆され,LCMは医師に貴重なフィードバックを与え,誤診断に挑戦し,より正確な意思決定に寄与することが示唆された。
例えば、医師が正確な38%の時間で正しい答えを得られる場合、Mistralは使用するプロンプトに応じて精度を最大74%向上させ、一方Llama2とMeditronモデルは選択を早めるための感度が向上する。
我々の分析は、LLM生成提案が適切かつ有用であることを保証する上での課題を明らかにし、この分野におけるさらなる研究の必要性を強調している。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams [9.802579169561781]
大規模言語モデル(LLM)は、数発のプロンプトに基づいて、医学的資格試験の質問とそれに対応する回答を生成することができる。
研究によると、LSMは数発のプロンプトを使った後、現実世界の医学試験の質問を効果的に模倣できることがわかった。
論文 参考訳(メタデータ) (2024-10-31T09:33:37Z) - Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。
この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文 参考訳(メタデータ) (2024-10-27T23:48:47Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - LLMs for Doctors: Leveraging Medical LLMs to Assist Doctors, Not Replace Them [41.65016162783525]
我々は、より経験豊富な医師と協力する医療アシスタントになるよう、Large Language Modelsをチューニングすることに重点を置いている。
我々は、医師のワークフロー全体をサポートするために、DoctorFLANと呼ばれる中国の医療データセットを構築した。
550個のシングルターンQ&Aを含むDoctorFLAN-textittestと74個のマルチターン会話を含むDotaBenchを構築し,医師指向のシナリオにおけるLCMの評価を行った。
論文 参考訳(メタデータ) (2024-06-26T03:08:24Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。