論文の概要: Comparative Analysis of Large Language Models in Healthcare
- arxiv url: http://arxiv.org/abs/2604.10316v1
- Date: Sat, 11 Apr 2026 18:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.952528
- Title: Comparative Analysis of Large Language Models in Healthcare
- Title(参考訳): 医療における大規模言語モデルの比較分析
- Authors: Subin Santhosh, Farwa Abbas, Hussain Ahmad, Claudia Szabo,
- Abstract要約: 大規模言語モデル(LLM)は、医療における人工知能の応用を変革している。
高度な臨床環境への展開は、正確性、信頼性、患者の安全性に関する重要な懸念を提起する。
本研究は,医療現場におけるLCMの標準化された比較評価の必要性に対処するものである。
- 参考スコア(独自算出の注目度): 1.9704270315085601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Large Language Models (LLMs) are transforming artificial intelligence applications in healthcare due to their ability to understand, generate, and summarize complex medical text. They offer valuable support to clinicians, researchers, and patients, yet their deployment in high-stakes clinical environments raises critical concerns regarding accuracy, reliability, and patient safety. Despite substantial attention in recent years, standardized benchmarking of LLMs for medical applications has been limited. Objective: This study addresses the need for a standardized comparative evaluation of LLMs in medical settings. Method: We evaluate multiple models, including ChatGPT, LLaMA, Grok, Gemini, and ChatDoctor, on core medical tasks such as patient note summarization and medical question answering, using the open-access datasets, MedMCQA, PubMedQA, and Asclepius, and assess performance through a combination of linguistic and task-specific metrics. Results: The results indicate that domain-specific models, such as ChatDoctor, excel in contextual reliability, producing medically accurate and semantically aligned text, whereas general-purpose models like Grok and LLaMA perform better in structured question-answering tasks, demonstrating higher quantitative accuracy. This highlights the complementary strengths of domain-specific and general-purpose LLMs depending on the medical task. Conclusion: Our findings suggest that LLMs can meaningfully support medical professionals and enhance clinical decision-making; however, their safe and effective deployment requires adherence to ethical standards, contextual accuracy, and human oversight in relevant cases. These results underscore the importance of task-specific evaluation and cautious integration of LLMs into healthcare workflows.
- Abstract(参考訳): 背景: 大規模言語モデル(LLM)は、複雑な医療テキストを理解し、生成し、要約する能力によって、医療における人工知能の応用を変革している。
臨床医、研究者、患者に貴重な支援を提供するが、高い精度の臨床環境への展開は、正確性、信頼性、患者の安全性に関する重要な懸念を提起する。
近年は注目が集まっているが、医学応用のためのLSMの標準化されたベンチマークは限られている。
目的: 本研究は, LLMの標準化された比較評価の必要性に対処するものである。
方法】ChatGPT,LLaMA,Grok,Gemini,ChatDoctorなどの複数のモデルを,患者ノートの要約や医療質問応答などの中核的な医療タスクにおいて,MedMCQA,PubMedQA,Asclepiusといったオープンアクセスデータセットを用いて評価し,言語とタスク固有のメトリクスの組み合わせによるパフォーマンス評価を行う。
その結果、ChatDoctorのようなドメイン固有モデルは、文脈的信頼性に優れ、医学的に正確で意味論的に整合したテキストを生成するのに対し、GrokやLLaMAのような汎用モデルは、構造化された質問応答タスクにおいてより良い性能を示し、より正確な精度を示すことが示唆された。
このことは、医学的課題に応じて、ドメイン特化および汎用LSMの相補的な強みを強調している。
結論: LLMは医療専門家を有意義に支援し, 臨床的意思決定を促進することができると考えられるが, その安全かつ効果的な展開には, 倫理的基準, 文脈的正確性, 人的監督の順守が必要である。
これらの結果から, LLMのタスク固有の評価と, 医療ワークフローへの慎重な統合の重要性が浮き彫りとなった。
関連論文リスト
- Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry [2.1717945745027425]
大規模言語モデル(LLM)は、言語理解と生成の高度な能力で様々な産業に影響を与えている。
この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説する。
本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。
論文 参考訳(メタデータ) (2024-04-24T09:55:24Z) - MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。
本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。
この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-21T03:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。