論文の概要: Clinical Validation of Medical-based Large Language Model Chatbots on Ophthalmic Patient Queries with LLM-based Evaluation
- arxiv url: http://arxiv.org/abs/2602.05381v1
- Date: Thu, 05 Feb 2026 07:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.800642
- Title: Clinical Validation of Medical-based Large Language Model Chatbots on Ophthalmic Patient Queries with LLM-based Evaluation
- Title(参考訳): LLM評価による眼科患者の眼科領域における医療用大規模言語モデルチャットボットの臨床的検討
- Authors: Ting Fang Tan, Kabilan Elangovan, Andreas Pollreisz, Kevin Bryan Dy, Wei Yan Ng, Joy Le Yi Wong, Jin Liyuan, Chrystie Quek Wan Ning, Ashley Shuen Ying Hong, Arun James Thirunavukarasu, Shelley Yin-His Chang, Jie Yao, Dylan Hong, Wang Zhaoran, Amrita Gupta, Daniel SW Ting,
- Abstract要約: ドメイン固有の大きな言語モデルは、眼科における患者教育、トリアージ、臨床決定を支援するために、ますます使われてきている。
本研究は,眼科関連患者の質問に対する回答として,Meerkat-7B,BioMistral-7B,OpenBioLLM-8B,MedLLaMA3-v20の4つの小症例について検討した。
全体として、LLMは安全な眼科的質問応答の可能性を示したが、そのギャップは臨床深度とコンセンサスに留まった。
- 参考スコア(独自算出の注目度): 1.6570903210287165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain specific large language models are increasingly used to support patient education, triage, and clinical decision making in ophthalmology, making rigorous evaluation essential to ensure safety and accuracy. This study evaluated four small medical LLMs Meerkat-7B, BioMistral-7B, OpenBioLLM-8B, and MedLLaMA3-v20 in answering ophthalmology related patient queries and assessed the feasibility of LLM based evaluation against clinician grading. In this cross sectional study, 180 ophthalmology patient queries were answered by each model, generating 2160 responses. Models were selected for parameter sizes under 10 billion to enable resource efficient deployment. Responses were evaluated by three ophthalmologists of differing seniority and by GPT-4-Turbo using the S.C.O.R.E. framework assessing safety, consensus and context, objectivity, reproducibility, and explainability, with ratings assigned on a five point Likert scale. Agreement between LLM and clinician grading was assessed using Spearman rank correlation, Kendall tau statistics, and kernel density estimate analyses. Meerkat-7B achieved the highest performance with mean scores of 3.44 from Senior Consultants, 4.08 from Consultants, and 4.18 from Residents. MedLLaMA3-v20 performed poorest, with 25.5 percent of responses containing hallucinations or clinically misleading content, including fabricated terminology. GPT-4-Turbo grading showed strong alignment with clinician assessments overall, with Spearman rho of 0.80 and Kendall tau of 0.67, though Senior Consultants graded more conservatively. Overall, medical LLMs demonstrated potential for safe ophthalmic question answering, but gaps remained in clinical depth and consensus, supporting the feasibility of LLM based evaluation for large scale benchmarking and the need for hybrid automated and clinician review frameworks to guide safe clinical deployment.
- Abstract(参考訳): ドメイン固有な大規模言語モデルは、眼科における患者教育、トリアージ、臨床的意思決定を支援するためにますます使われており、安全性と正確性を確保するために厳密な評価が不可欠である。
本研究は,眼科関連患者の質問に対する答えとして,Meerkat-7B,BioMistral-7B,OpenBioLLM-8B,MedLLaMA3-v20の4つの小さな医療用LCMについて検討し,LLMによる臨床評価の有効性を検討した。
横断的調査では,180名の眼科患者の質問に各モデルで回答し,2160名の回答を得た。
パラメータサイズが100億未満のモデルが選択され、リソースの効率的なデプロイが可能になった。
S.C.O.R.E.フレームワークを用いて、高齢者の異なる3人の眼科医とGPT-4-Turboにより、安全性、コンセンサスとコンテキスト、客観性、再現性、説明可能性を評価し、5点のQuatスケールで評価した。
スピアマンランク相関,ケンダルタウ統計,およびカーネル密度推定分析を用いて,LSMと臨床評価の一致を評価した。
Meerkat-7Bは上級コンサルタントの3.44点、コンサルタントの4.08点、住民の4.18点で最高性能を達成した。
MedLLaMA3-v20は最も貧しく、幻覚を含む反応の25.5%は、製造された用語を含む臨床的に誤解を招く内容である。
GPT-4-Turbo gradingは、Sperman rhoが0.80、Kendall tauが0.67と、総合的な評価と強く一致した。
総合的に, 医療用LLMは安全な眼科質問応答の可能性を示したが, 臨床深度とコンセンサスにギャップが残っており, 大規模ベンチマークにおけるLCMによる評価の可能性と, 安全な臨床展開を導くためのハイブリッド自動および臨床検査フレームワークの必要性が示唆された。
関連論文リスト
- MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - LEME: Open Large Language Models for Ophthalmology with Advanced Reasoning and Clinical Validation [29.913581347375256]
大規模言語モデル(LLM)は、ドキュメントの作業量を削減し、臨床的な意思決定をサポートする、有望なパスを提供する。
本稿では,2段階プロセスで開発したオープンウェイトLLMのスイートであるLEMEについて述べる。
LEMEは、患者QA、相談、治療計画などのタスクにまたがる5つのゼロショットベンチマークで評価された。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - Evaluating the Impact of a Specialized LLM on Physician Experience in Clinical Decision Support: A Comparison of Ask Avo and ChatGPT-4 [0.3999851878220878]
臨床意思決定支援システムを強化するための言語モデル(LLM)は、関心が高まりつつあるトピックである。
幻覚や明確な引用の欠如といった現在の欠点は、急速に成長する臨床環境での使用には信頼性が低い。
本研究では,独自のモデル拡張言語検索システムを組み込んだAvoMDによるAsk Avo由来のソフトウェアを評価する。
論文 参考訳(メタデータ) (2024-09-06T17:53:29Z) - Fine-tuning Large Language Model (LLM) Artificial Intelligence Chatbots
in Ophthalmology and LLM-based evaluation using GPT-4 [2.3715885775680925]
400の眼科質問とペアの回答が眼科医によって作成され、一般に求められている患者の質問を表現した。
LLAMA2-7b, LLAMA2-7b-Chat, LLAMA2-13b, LLAMA2-13b-Chatを含む5種類のLLMを調整した。
GPT-4の評価は, 臨床精度, 関連性, 患者の安全性, 理解の容易さに基礎を置いている。
論文 参考訳(メタデータ) (2024-02-15T16:43:41Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。