論文の概要: Evaluating Large Language Models in Ophthalmology
- arxiv url: http://arxiv.org/abs/2311.04933v1
- Date: Tue, 7 Nov 2023 16:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 17:07:42.907106
- Title: Evaluating Large Language Models in Ophthalmology
- Title(参考訳): 眼科における大規模言語モデルの評価
- Authors: Jason Holmes, Shuyuan Ye, Yiwei Li, Shi-Nan Wu, Zhengliang Liu, Zihao
Wu, Jinyu Hu, Huan Zhao, Xi Jiang, Wei Liu, Hong Wei, Jie Zou, Tianming Liu,
Yi Shao
- Abstract要約: 眼科専門の質問に答える3つの異なる大言語モデル(LLMS)の性能を評価した。
GPT-4 は GPT-3.5 や PaLM2 よりも回答安定性と信頼性が有意に高かった。
- 参考スコア(独自算出の注目度): 34.13457684015814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: The performance of three different large language models (LLMS)
(GPT-3.5, GPT-4, and PaLM2) in answering ophthalmology professional questions
was evaluated and compared with that of three different professional
populations (medical undergraduates, medical masters, and attending
physicians). Methods: A 100-item ophthalmology single-choice test was
administered to three different LLMs (GPT-3.5, GPT-4, and PaLM2) and three
different professional levels (medical undergraduates, medical masters, and
attending physicians), respectively. The performance of LLM was comprehensively
evaluated and compared with the human group in terms of average score,
stability, and confidence. Results: Each LLM outperformed undergraduates in
general, with GPT-3.5 and PaLM2 being slightly below the master's level, while
GPT-4 showed a level comparable to that of attending physicians. In addition,
GPT-4 showed significantly higher answer stability and confidence than GPT-3.5
and PaLM2. Conclusion: Our study shows that LLM represented by GPT-4 performs
better in the field of ophthalmology. With further improvements, LLM will bring
unexpected benefits in medical education and clinical decision making in the
near future.
- Abstract(参考訳): 目的: 3種類の大言語モデル(GPT-3.5, GPT-4, PaLM2)の眼科専門的質問に対して, 3種類の専門職集団(医学生, 医師, 看護医)と比較して評価を行った。
方法:100項目の眼科単焦点検診を3つの異なるLSM(GPT-3.5, GPT-4, PaLM2)と3つの異なる専門レベル(医学生, 医師, 看護医)で行った。
LLMの性能を総合的に評価し,平均スコア,安定性,信頼性の観点からヒト群と比較した。
結果: 各 LLM は, GPT-3.5 と PaLM2 が, GPT-4 は受講医に匹敵するレベルであった。
さらに GPT-4 は GPT-3.5 および PaLM2 よりも回答安定性と信頼性が有意に高かった。
結論: 眼科領域では, GPT-4 で表される LLM が良好に機能することが示された。
さらなる改善により、LSMは近い将来、医学教育と臨床意思決定に予期せぬ利益をもたらすだろう。
関連論文リスト
- GPT-4 passes most of the 297 written Polish Board Certification Examinations [0.5461938536945723]
本研究では,ポーランド委員会認定試験(Pa'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。
GPTモデルは、特定の専門分野に関する試験において卓越した性能を示しながら、他の分野では完全に失敗するなど、大きく変化した。
論文 参考訳(メタデータ) (2024-04-29T09:08:22Z) - A Continued Pretrained LLM Approach for Automatic Medical Note Generation [10.981182525560751]
HEALは13B LLaMA2をベースとしたLLMで, 医療会話用に構築され, 自動切削で測定される。
以上の結果から, HEALはPubMedQAにおいてGPT-4, PMC-LLaMAよりも78.4%優れていた。
興味深いことに、HEALはGPT-4とMed-PaLM 2を越え、より正確な医療概念を同定し、正確性と完全性においてヒトの書記体のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2024-03-14T02:55:37Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - HuatuoGPT-II, One-stage Training for Medical Adaption of LLMs [62.73042700847977]
HuatuoGPT-IIは、いくつかのベンチマークで、中国の医学領域における最先端のパフォーマンスを示している。
さらに、ChatGPTやGPT-4といったプロプライエタリなモデルよりも、特に中国伝統医学において優れています。
論文 参考訳(メタデータ) (2023-11-16T10:56:24Z) - Evaluating multiple large language models in pediatric ophthalmology [37.16480878552708]
小児眼科領域における各種大言語モデル(LLM)と各種個人の有効性は明らかになっていない。
本調査は,高度に専門化されたシナリオにおけるLCMの性能を評価し,異なるレベルの医学生と医師のパフォーマンスと比較した。
論文 参考訳(メタデータ) (2023-11-07T22:23:51Z) - A Comparative Study of Open-Source Large Language Models, GPT-4 and
Claude 2: Multiple-Choice Test Taking in Nephrology [0.6213359027997152]
本研究は,LLMモデルがNephSAP多重選択質問に対する正しい回答を提供する能力を評価するために行われた。
本研究の結果は将来の医療訓練や患者医療に重大な影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-08-09T05:01:28Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。