論文の概要: Evaluating Large Language Models in Ophthalmology
- arxiv url: http://arxiv.org/abs/2311.04933v1
- Date: Tue, 7 Nov 2023 16:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 17:07:42.907106
- Title: Evaluating Large Language Models in Ophthalmology
- Title(参考訳): 眼科における大規模言語モデルの評価
- Authors: Jason Holmes, Shuyuan Ye, Yiwei Li, Shi-Nan Wu, Zhengliang Liu, Zihao
Wu, Jinyu Hu, Huan Zhao, Xi Jiang, Wei Liu, Hong Wei, Jie Zou, Tianming Liu,
Yi Shao
- Abstract要約: 眼科専門の質問に答える3つの異なる大言語モデル(LLMS)の性能を評価した。
GPT-4 は GPT-3.5 や PaLM2 よりも回答安定性と信頼性が有意に高かった。
- 参考スコア(独自算出の注目度): 34.13457684015814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: The performance of three different large language models (LLMS)
(GPT-3.5, GPT-4, and PaLM2) in answering ophthalmology professional questions
was evaluated and compared with that of three different professional
populations (medical undergraduates, medical masters, and attending
physicians). Methods: A 100-item ophthalmology single-choice test was
administered to three different LLMs (GPT-3.5, GPT-4, and PaLM2) and three
different professional levels (medical undergraduates, medical masters, and
attending physicians), respectively. The performance of LLM was comprehensively
evaluated and compared with the human group in terms of average score,
stability, and confidence. Results: Each LLM outperformed undergraduates in
general, with GPT-3.5 and PaLM2 being slightly below the master's level, while
GPT-4 showed a level comparable to that of attending physicians. In addition,
GPT-4 showed significantly higher answer stability and confidence than GPT-3.5
and PaLM2. Conclusion: Our study shows that LLM represented by GPT-4 performs
better in the field of ophthalmology. With further improvements, LLM will bring
unexpected benefits in medical education and clinical decision making in the
near future.
- Abstract(参考訳): 目的: 3種類の大言語モデル(GPT-3.5, GPT-4, PaLM2)の眼科専門的質問に対して, 3種類の専門職集団(医学生, 医師, 看護医)と比較して評価を行った。
方法:100項目の眼科単焦点検診を3つの異なるLSM(GPT-3.5, GPT-4, PaLM2)と3つの異なる専門レベル(医学生, 医師, 看護医)で行った。
LLMの性能を総合的に評価し,平均スコア,安定性,信頼性の観点からヒト群と比較した。
結果: 各 LLM は, GPT-3.5 と PaLM2 が, GPT-4 は受講医に匹敵するレベルであった。
さらに GPT-4 は GPT-3.5 および PaLM2 よりも回答安定性と信頼性が有意に高かった。
結論: 眼科領域では, GPT-4 で表される LLM が良好に機能することが示された。
さらなる改善により、LSMは近い将来、医学教育と臨床意思決定に予期せぬ利益をもたらすだろう。
関連論文リスト
- Evaluating the Impact of a Specialized LLM on Physician Experience in Clinical Decision Support: A Comparison of Ask Avo and ChatGPT-4 [0.3999851878220878]
臨床意思決定支援システムを強化するための言語モデル(LLM)は、関心が高まりつつあるトピックである。
幻覚や明確な引用の欠如といった現在の欠点は、急速に成長する臨床環境での使用には信頼性が低い。
本研究では,独自のモデル拡張言語検索システムを組み込んだAvoMDによるAsk Avo由来のソフトウェアを評価する。
論文 参考訳(メタデータ) (2024-09-06T17:53:29Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - A Continued Pretrained LLM Approach for Automatic Medical Note Generation [10.981182525560751]
HEALは13B LLaMA2をベースとしたLLMで, 医療会話用に構築され, 自動切削で測定される。
以上の結果から, HEALはPubMedQAにおいてGPT-4, PMC-LLaMAよりも78.4%優れていた。
興味深いことに、HEALはGPT-4とMed-PaLM 2を越え、より正確な医療概念を同定し、正確性と完全性においてヒトの書記体のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2024-03-14T02:55:37Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - Evaluating multiple large language models in pediatric ophthalmology [37.16480878552708]
小児眼科領域における各種大言語モデル(LLM)と各種個人の有効性は明らかになっていない。
本調査は,高度に専門化されたシナリオにおけるLCMの性能を評価し,異なるレベルの医学生と医師のパフォーマンスと比較した。
論文 参考訳(メタデータ) (2023-11-07T22:23:51Z) - A Comparative Study of Open-Source Large Language Models, GPT-4 and
Claude 2: Multiple-Choice Test Taking in Nephrology [0.6213359027997152]
本研究は,LLMモデルがNephSAP多重選択質問に対する正しい回答を提供する能力を評価するために行われた。
本研究の結果は将来の医療訓練や患者医療に重大な影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-08-09T05:01:28Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。