論文の概要: Emulating Human Cognitive Processes for Expert-Level Medical
Question-Answering with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.11266v1
- Date: Tue, 17 Oct 2023 13:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:38:37.888775
- Title: Emulating Human Cognitive Processes for Expert-Level Medical
Question-Answering with Large Language Models
- Title(参考訳): 専門家レベル医療質問に対する認知過程のエミュレート-大規模言語モデルによる回答
- Authors: Khushboo Verma, Marina Moore, Stephanie Wottrich, Karla Robles
L\'opez, Nishant Aggarwal, Zeel Bhatt, Aagamjit Singh, Bradford Unroe, Salah
Basheer, Nitish Sachdeva, Prinka Arora, Harmanjeet Kaur, Tanupreet Kaur,
Tevon Hood, Anahi Marquez, Tushar Varshney, Nanfu Deng, Azaan Ramani,
Pawanraj Ishwara, Maimoona Saeed, Tatiana L\'opez Velarde Pe\~na, Bryan
Barksdale, Sushovan Guha, Satwant Kumar
- Abstract要約: BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである
人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。
本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
- 参考スコア(独自算出の注目度): 0.23463422965432823
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In response to the pressing need for advanced clinical problem-solving tools
in healthcare, we introduce BooksMed, a novel framework based on a Large
Language Model (LLM). BooksMed uniquely emulates human cognitive processes to
deliver evidence-based and reliable responses, utilizing the GRADE (Grading of
Recommendations, Assessment, Development, and Evaluations) framework to
effectively quantify evidence strength. For clinical decision-making to be
appropriately assessed, an evaluation metric that is clinically aligned and
validated is required. As a solution, we present ExpertMedQA, a multispecialty
clinical benchmark comprised of open-ended, expert-level clinical questions,
and validated by a diverse group of medical professionals. By demanding an
in-depth understanding and critical appraisal of up-to-date clinical
literature, ExpertMedQA rigorously evaluates LLM performance. BooksMed
outperforms existing state-of-the-art models Med-PaLM 2, Almanac, and ChatGPT
in a variety of medical scenarios. Therefore, a framework that mimics human
cognitive stages could be a useful tool for providing reliable and
evidence-based responses to clinical inquiries.
- Abstract(参考訳): 医療における高度な臨床問題解決ツールの必要性への対応として,大型言語モデル(llm)に基づく新たなフレームワークであるbooksmedを紹介する。
BooksMedは、GRADE(Grading of Recommendations, Assessment, Development, and Evaluations)フレームワークを使用して、証拠強度を効果的に定量化する。
臨床意思決定を適切に評価するには、臨床的に調整され検証される評価基準が必要である。
そこで,我々はexpertmedqaを提案する。expertmedqaはオープンエンドで専門家レベルの臨床質問で構成され,医療専門家の多様なグループによって検証される多種多様な臨床ベンチマークである。
最新の臨床文献の深い理解と批判的評価を求めることにより、ExpertMedQAはLSMのパフォーマンスを厳格に評価する。
BooksMedは、様々な医療シナリオにおいて、既存の最先端モデルMed-PaLM 2、Almanac、ChatGPTを上回っている。
したがって、人間の認知段階を模倣するフレームワークは、臨床検査に対する信頼性とエビデンスに基づく応答を提供するのに役立つ。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-09-11T14:44:51Z) - A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry [2.1717945745027425]
大規模言語モデル(LLM)は、言語理解と生成の高度な能力で様々な産業に影響を与えている。
この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説する。
本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
論文 参考訳(メタデータ) (2024-04-24T09:55:24Z) - MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway
Encoding [48.348511646407026]
本稿では,知識向上と臨床パスウェイ符号化フレームワークを用いた医療対話について紹介する。
このフレームワークは、医療知識グラフを介して外部知識増強モジュールと、医療機関および医師の行動を介して、内部臨床経路をコードする。
論文 参考訳(メタデータ) (2024-03-11T10:57:45Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z) - ClinicalGPT: Large Language Models Finetuned with Diverse Medical Data
and Comprehensive Evaluation [5.690250818139763]
大規模言語モデルは、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
これらの進歩にもかかわらず、実際の不正確さ、推論能力、現実世界の経験の基盤の欠如など、医学的応用におけるその効果は限られている。
臨床シナリオに対して明示的に設計・最適化された言語モデルである臨床GPTを提案する。
論文 参考訳(メタデータ) (2023-06-16T16:56:32Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。