Fugu-MT 論文翻訳(概要): Emulating Human Cognitive Processes for Expert-Level Medical Question-Answering with Large Language Models

論文の概要: Emulating Human Cognitive Processes for Expert-Level Medical Question-Answering with Large Language Models

arxiv url: http://arxiv.org/abs/2310.11266v1
Date: Tue, 17 Oct 2023 13:39:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 15:38:37.888775
Title: Emulating Human Cognitive Processes for Expert-Level Medical Question-Answering with Large Language Models
Title（参考訳）: 専門家レベル医療質問に対する認知過程のエミュレート-大規模言語モデルによる回答
Authors: Khushboo Verma, Marina Moore, Stephanie Wottrich, Karla Robles L\'opez, Nishant Aggarwal, Zeel Bhatt, Aagamjit Singh, Bradford Unroe, Salah Basheer, Nitish Sachdeva, Prinka Arora, Harmanjeet Kaur, Tanupreet Kaur, Tevon Hood, Anahi Marquez, Tushar Varshney, Nanfu Deng, Azaan Ramani, Pawanraj Ishwara, Maimoona Saeed, Tatiana L\'opez Velarde Pe\~na, Bryan Barksdale, Sushovan Guha, Satwant Kumar
Abstract要約: BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
参考スコア（独自算出の注目度）: 0.23463422965432823
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In response to the pressing need for advanced clinical problem-solving tools in healthcare, we introduce BooksMed, a novel framework based on a Large Language Model (LLM). BooksMed uniquely emulates human cognitive processes to deliver evidence-based and reliable responses, utilizing the GRADE (Grading of Recommendations, Assessment, Development, and Evaluations) framework to effectively quantify evidence strength. For clinical decision-making to be appropriately assessed, an evaluation metric that is clinically aligned and validated is required. As a solution, we present ExpertMedQA, a multispecialty clinical benchmark comprised of open-ended, expert-level clinical questions, and validated by a diverse group of medical professionals. By demanding an in-depth understanding and critical appraisal of up-to-date clinical literature, ExpertMedQA rigorously evaluates LLM performance. BooksMed outperforms existing state-of-the-art models Med-PaLM 2, Almanac, and ChatGPT in a variety of medical scenarios. Therefore, a framework that mimics human cognitive stages could be a useful tool for providing reliable and evidence-based responses to clinical inquiries.
Abstract（参考訳）: 医療における高度な臨床問題解決ツールの必要性への対応として,大型言語モデル(llm)に基づく新たなフレームワークであるbooksmedを紹介する。 BooksMedは、GRADE(Grading of Recommendations, Assessment, Development, and Evaluations)フレームワークを使用して、証拠強度を効果的に定量化する。臨床意思決定を適切に評価するには、臨床的に調整され検証される評価基準が必要である。そこで,我々はexpertmedqaを提案する。expertmedqaはオープンエンドで専門家レベルの臨床質問で構成され,医療専門家の多様なグループによって検証される多種多様な臨床ベンチマークである。最新の臨床文献の深い理解と批判的評価を求めることにより、ExpertMedQAはLSMのパフォーマンスを厳格に評価する。 BooksMedは、様々な医療シナリオにおいて、既存の最先端モデルMed-PaLM 2、Almanac、ChatGPTを上回っている。したがって、人間の認知段階を模倣するフレームワークは、臨床検査に対する信頼性とエビデンスに基づく応答を提供するのに役立つ。

関連論文リスト

Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models [0.0]
医療大言語モデル(MLLM)は医療応用の可能性を示している。幻覚に対する寛容性は、患者医療に重大なリスクをもたらす。本稿では,MLLMにおける幻覚の評価と緩和のためのベンチマークフレームワークであるMedHallBenchを紹介する。
論文参考訳（メタデータ） (2024-12-25T16:51:29Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文参考訳（メタデータ） (2024-10-24T15:41:56Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文参考訳（メタデータ） (2024-09-11T14:44:51Z)
A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry [2.1717945745027425]
大規模言語モデル(LLM)は、言語理解と生成の高度な能力で様々な産業に影響を与えている。この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説する。本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
論文参考訳（メタデータ） (2024-04-24T09:55:24Z)
MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway Encoding [48.348511646407026]
本稿では,知識向上と臨床パスウェイ符号化フレームワークを用いた医療対話について紹介する。このフレームワークは、医療知識グラフを介して外部知識増強モジュールと、医療機関および医師の行動を介して、内部臨床経路をコードする。
論文参考訳（メタデータ） (2024-03-11T10:57:45Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文参考訳（メタデータ） (2023-12-20T07:01:49Z)
An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-05T09:24:48Z)
ClinicalGPT: Large Language Models Finetuned with Diverse Medical Data and Comprehensive Evaluation [5.690250818139763]
大規模言語モデルは、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。これらの進歩にもかかわらず、実際の不正確さ、推論能力、現実世界の経験の基盤の欠如など、医学的応用におけるその効果は限られている。臨床シナリオに対して明示的に設計・最適化された言語モデルである臨床GPTを提案する。
論文参考訳（メタデータ） (2023-06-16T16:56:32Z)
Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文参考訳（メタデータ） (2022-12-26T14:28:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。