Fugu-MT 論文翻訳(概要): The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams

論文の概要: The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams

arxiv url: http://arxiv.org/abs/2410.23769v2
Date: Thu, 27 Feb 2025 07:47:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.236816
Title: The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams
Title（参考訳）: 医学教育におけるLCMの可能性 : 資格審査に対する質問と回答
Authors: Yunqi Zhu, Wen Tang, Huayu Yang, Jinghao Niu, Liyang Dou, Yifan Gu, Yuanyuan Wu, Wensheng Zhang, Ying Sun, Xuebing Yang,
Abstract要約: 従来の医学教育では、高度な臨床医が、EHRのプロトタイプに基づいて質問や回答を定式化する必要がある。メインストリームのLSMは,臨床医に近いレベルにおいて,現実のERHで質問や回答を生成できることがわかった。
参考スコア（独自算出の注目度）: 13.469665087042614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we leverage LLMs to produce medical qualification exam questions and the corresponding answers through few-shot prompts, investigating in-depth how LLMs meet the requirements in terms of coherence, evidence of statement, factual consistency, and professionalism etc. Utilizing a multicenter bidirectional anonymized database with respect to comorbid chronic diseases, named Elderly Comorbidity Medical Database (CECMed), we tasked LLMs with generating open-ended questions and answers based on a subset of sampled admission reports. For CECMed, the retrospective cohort includes patients enrolled from January 2010 to January 2022 while the prospective cohort from January 2023 to November 2023, with participants sourced from selected tertiary and community hospitals across the southern, northern, and central regions of China. A total of 8 widely used LLMs were used, including ERNIE 4, ChatGLM 4, Doubao, Hunyuan, Spark 4, Qwen, Conventional medical education requires sophisticated clinicians to formulate questions and answers based on prototypes from EHRs, which is heuristic and time-consuming. We found that mainstream LLMs could generate questions and answers with real-world EHRs at levels close to clinicians. Although current LLMs performed dissatisfactory in some aspects, medical students, interns and residents could reasonably make use of LLMs to facilitate understanding.
Abstract（参考訳）: 本研究では,LCMが一貫性,証拠,事実整合性,プロフェッショナリズムなどの観点から,どのように要件を満たすのかを詳細に検討し,LCMを活用して医療資格試験問題とそれに対応する回答を生成する。慢性疾患に対する多施設共同匿名データベース(CECMed)を用いて, 症例報告のサブセットに基づいて, オープンエンド質問や回答を生成するLLMを課題とした。 CECMedは、2010年1月から2022年1月まで登録された患者を対象とし、2023年1月から2023年11月までに、中国南部、北部、中部地方で選択された第3次・地域病院の参加者を対象とする。 ERNIE 4, ChatGLM 4, Doubao, Hunyuan, Spark 4, Qwen, Conventional Medical Educationなど8種が広く使用されている。メインストリームのLSMは,臨床医に近いレベルにおいて,現実のERHで質問や回答を生成できることがわかった。現在のLSMはいくつかの点で不満を抱いていたが、医学生、インターン、住民はLSMを合理的に利用して理解を深めることができた。

関連論文リスト

Dr. GPT Will See You Now, but Should It? Exploring the Benefits and Harms of Large Language Models in Medical Diagnosis using Crowdsourced Clinical Cases [7.894865736540358]
大規模言語モデル(LLMs)は、医学(自己診断)や予備的トリアージなどの高度な応用に用いられている。本稿では, LLMの有効性を評価するために, クラウドソーシングによる新たなアプローチを活用した大学レベルのコンペから得られた知見について述べる。
論文参考訳（メタデータ） (2025-06-13T17:12:47Z)
MIRIAD: Augmenting LLMs with millions of medical query-response pairs [36.32674607022871]
医療用QAペア5,821,948の大規模キュレートコーパスであるMIRIADを紹介する。また,MIRIADの精度はRAGベースラインに比べて6.7%向上した。 56の医学分野にまたがるMIRIADのインタラクティブマップであるMIRIAD-Atlasについても紹介する。
論文参考訳（メタデータ） (2025-06-06T13:52:32Z)
AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset [8.521691388707799]
AfriMed-QAはPan-African English multi-choice Medical Question-Answering データセットである。 15,000の質問が16カ国の60以上の医療学校から寄せられ、32の医療専門学校から寄せられた。バイオメディカル LLM は一般的なモデルよりも優れており、エッジフレンドリーな LLM はパススコアの達成に苦慮している。
論文参考訳（メタデータ） (2024-11-23T19:43:02Z)
Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文参考訳（メタデータ） (2024-10-24T15:41:56Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
Stochastic Parrots or ICU Experts? Large Language Models in Critical Care Medicine: A Scoping Review [3.993456293626592]
大規模言語モデル(LLM)は、自然言語理解、推論、生成において強力な能力を示している。重度医療ユニット(ICU)の集中的モニタリングと介入を必要とする重度疾患患者の診断と治療を提供する。
論文参考訳（メタデータ） (2024-07-27T13:41:43Z)
LLMs for Doctors: Leveraging Medical LLMs to Assist Doctors, Not Replace Them [41.65016162783525]
我々は、より経験豊富な医師と協力する医療アシスタントになるよう、Large Language Modelsをチューニングすることに重点を置いている。我々は、医師のワークフロー全体をサポートするために、DoctorFLANと呼ばれる中国の医療データセットを構築した。 550個のシングルターンQ&Aを含むDoctorFLAN-textittestと74個のマルチターン会話を含むDotaBenchを構築し,医師指向のシナリオにおけるLCMの評価を行った。
論文参考訳（メタデータ） (2024-06-26T03:08:24Z)
A Survey on Large Language Models from General Purpose to Medical Applications: Datasets, Methodologies, and Evaluations [5.265452667976959]
本調査は,オープンソース汎用LSMをベースとした医療用LSMのトレーニング方法を体系的にまとめたものである。 a) トレーニングコーパスの取得方法、カスタマイズされた医療トレーニングセットの構築方法、(b) 適切なトレーニングパラダイムの選択方法、(d) 既存の課題と有望な研究方向性をカバーしている。
論文参考訳（メタデータ） (2024-06-14T02:42:20Z)
MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering [5.065947993017158]
大きな言語モデル(LLM)は、大きなテキストコーパスで事前学習中に知識を符号化する印象的な能力を示している。体系的レビューから得られた新しいデータセットを構築することにより, LLMが医療知識のリコールを示す能力について検討する。
論文参考訳（メタデータ） (2024-06-09T16:33:28Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文参考訳（メタデータ） (2023-12-20T07:01:49Z)
ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。 ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文参考訳（メタデータ） (2023-11-10T12:25:32Z)
A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文参考訳（メタデータ） (2023-11-09T02:55:58Z)
Large Language Models Illuminate a Progressive Pathway to Artificial Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。本稿では,医学におけるLSMの応用と意義について概説する。
論文参考訳（メタデータ） (2023-11-03T13:51:36Z)
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文参考訳（メタデータ） (2023-09-05T13:39:38Z)
An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-05T09:24:48Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Large Language Models Leverage External Knowledge to Extend Clinical Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文参考訳（メタデータ） (2023-05-17T12:31:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。