論文の概要: Emulating Human Cognitive Processes for Expert-Level Medical
Question-Answering with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.11266v1
- Date: Tue, 17 Oct 2023 13:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:38:37.888775
- Title: Emulating Human Cognitive Processes for Expert-Level Medical
Question-Answering with Large Language Models
- Title(参考訳): 専門家レベル医療質問に対する認知過程のエミュレート-大規模言語モデルによる回答
- Authors: Khushboo Verma, Marina Moore, Stephanie Wottrich, Karla Robles
L\'opez, Nishant Aggarwal, Zeel Bhatt, Aagamjit Singh, Bradford Unroe, Salah
Basheer, Nitish Sachdeva, Prinka Arora, Harmanjeet Kaur, Tanupreet Kaur,
Tevon Hood, Anahi Marquez, Tushar Varshney, Nanfu Deng, Azaan Ramani,
Pawanraj Ishwara, Maimoona Saeed, Tatiana L\'opez Velarde Pe\~na, Bryan
Barksdale, Sushovan Guha, Satwant Kumar
- Abstract要約: BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである
人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。
本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
- 参考スコア(独自算出の注目度): 0.23463422965432823
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In response to the pressing need for advanced clinical problem-solving tools
in healthcare, we introduce BooksMed, a novel framework based on a Large
Language Model (LLM). BooksMed uniquely emulates human cognitive processes to
deliver evidence-based and reliable responses, utilizing the GRADE (Grading of
Recommendations, Assessment, Development, and Evaluations) framework to
effectively quantify evidence strength. For clinical decision-making to be
appropriately assessed, an evaluation metric that is clinically aligned and
validated is required. As a solution, we present ExpertMedQA, a multispecialty
clinical benchmark comprised of open-ended, expert-level clinical questions,
and validated by a diverse group of medical professionals. By demanding an
in-depth understanding and critical appraisal of up-to-date clinical
literature, ExpertMedQA rigorously evaluates LLM performance. BooksMed
outperforms existing state-of-the-art models Med-PaLM 2, Almanac, and ChatGPT
in a variety of medical scenarios. Therefore, a framework that mimics human
cognitive stages could be a useful tool for providing reliable and
evidence-based responses to clinical inquiries.
- Abstract(参考訳): 医療における高度な臨床問題解決ツールの必要性への対応として,大型言語モデル(llm)に基づく新たなフレームワークであるbooksmedを紹介する。
BooksMedは、GRADE(Grading of Recommendations, Assessment, Development, and Evaluations)フレームワークを使用して、証拠強度を効果的に定量化する。
臨床意思決定を適切に評価するには、臨床的に調整され検証される評価基準が必要である。
そこで,我々はexpertmedqaを提案する。expertmedqaはオープンエンドで専門家レベルの臨床質問で構成され,医療専門家の多様なグループによって検証される多種多様な臨床ベンチマークである。
最新の臨床文献の深い理解と批判的評価を求めることにより、ExpertMedQAはLSMのパフォーマンスを厳格に評価する。
BooksMedは、様々な医療シナリオにおいて、既存の最先端モデルMed-PaLM 2、Almanac、ChatGPTを上回っている。
したがって、人間の認知段階を模倣するフレームワークは、臨床検査に対する信頼性とエビデンスに基づく応答を提供するのに役立つ。
関連論文リスト
- MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway
Encoding [48.348511646407026]
本稿では,知識向上と臨床パスウェイ符号化フレームワークを用いた医療対話について紹介する。
このフレームワークは、医療知識グラフを介して外部知識増強モジュールと、医療機関および医師の行動を介して、内部臨床経路をコードする。
論文 参考訳(メタデータ) (2024-03-11T10:57:45Z) - EHRNoteQA: A Patient-Specific Question Answering Benchmark for
Evaluating Large Language Models in Clinical Settings [9.77441122987873]
本研究では,臨床環境におけるLarge Language Models (LLMs) の評価に適した,患者固有の質問応答ベンチマークであるEHRNoteQAを紹介する。
MIMIC-IV Electronic Health Record (EHR)に基づいて、3人の医療専門家からなるチームが、962のユニークな質問からなるデータセットをキュレートした。
このデータセットは、PhyloNetクレデンシャルアクセスの下で一般公開され、この重要な分野におけるさらなる研究が促進される。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Interactive Evaluation and Collaboration of LLMs as Intern
Doctors for Clinical Diagnosis [72.50974375416239]
リアルタイムのインタラクティブな診断環境を構築するために設計されたフレームワークであるAI Hospitalを紹介する。
様々な大規模言語モデル(LLM)は、対話的診断のためのインターン医師として機能する。
我々は,医療部長の監督の下で,反復的な議論と紛争解決プロセスを含む協調的なメカニズムを導入する。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical
Text Summarization [8.58821737720852]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z) - ClinicalGPT: Large Language Models Finetuned with Diverse Medical Data
and Comprehensive Evaluation [5.690250818139763]
大規模言語モデルは、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
これらの進歩にもかかわらず、実際の不正確さ、推論能力、現実世界の経験の基盤の欠如など、医学的応用におけるその効果は限られている。
臨床シナリオに対して明示的に設計・最適化された言語モデルである臨床GPTを提案する。
論文 参考訳(メタデータ) (2023-06-16T16:56:32Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。