論文の概要: Evaluating multiple large language models in pediatric ophthalmology
- arxiv url: http://arxiv.org/abs/2311.04368v1
- Date: Tue, 7 Nov 2023 22:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:44:33.478931
- Title: Evaluating multiple large language models in pediatric ophthalmology
- Title(参考訳): 小児眼科における多言語モデルの評価
- Authors: Jason Holmes, Rui Peng, Yiwei Li, Jinyu Hu, Zhengliang Liu, Zihao Wu,
Huan Zhao, Xi Jiang, Wei Liu, Hong Wei, Jie Zou, Tianming Liu, Yi Shao
- Abstract要約: 小児眼科領域における各種大言語モデル(LLM)と各種個人の有効性は明らかになっていない。
本調査は,高度に専門化されたシナリオにおけるLCMの性能を評価し,異なるレベルの医学生と医師のパフォーマンスと比較した。
- 参考スコア(独自算出の注目度): 37.16480878552708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: IMPORTANCE The response effectiveness of different large language models
(LLMs) and various individuals, including medical students, graduate students,
and practicing physicians, in pediatric ophthalmology consultations, has not
been clearly established yet. OBJECTIVE Design a 100-question exam based on
pediatric ophthalmology to evaluate the performance of LLMs in highly
specialized scenarios and compare them with the performance of medical students
and physicians at different levels. DESIGN, SETTING, AND PARTICIPANTS This
survey study assessed three LLMs, namely ChatGPT (GPT-3.5), GPT-4, and PaLM2,
were assessed alongside three human cohorts: medical students, postgraduate
students, and attending physicians, in their ability to answer questions
related to pediatric ophthalmology. It was conducted by administering
questionnaires in the form of test papers through the LLM network interface,
with the valuable participation of volunteers. MAIN OUTCOMES AND MEASURES Mean
scores of LLM and humans on 100 multiple-choice questions, as well as the
answer stability, correlation, and response confidence of each LLM. RESULTS
GPT-4 performed comparably to attending physicians, while ChatGPT (GPT-3.5) and
PaLM2 outperformed medical students but slightly trailed behind postgraduate
students. Furthermore, GPT-4 exhibited greater stability and confidence when
responding to inquiries compared to ChatGPT (GPT-3.5) and PaLM2. CONCLUSIONS
AND RELEVANCE Our results underscore the potential for LLMs to provide medical
assistance in pediatric ophthalmology and suggest significant capacity to guide
the education of medical students.
- Abstract(参考訳): 小児眼科の診察において、異なる大言語モデル(llm)と、医学生、大学院生、医師を含む様々な個人による反応効果が明確に確立されていない。
客観的な設計 小児眼科に基づく100名の質問試験で、高度に特殊なシナリオでllmの性能を評価し、異なるレベルの医学生や医師のパフォーマンスと比較する。
本研究は, 小児眼科における質問への回答能力として, 医学生, 大学院生, 医師の3人のコホートとともに, chatgpt (gpt-3.5), gpt-4, palm2の3つのllmを評価した。
LLMネットワークインタフェースを用いたテストペーパーの形式でアンケートを実施し,ボランティアの有意義な参加によって実施した。
主な結果と尺度は、100のマルチチョイス質問に対するllmと人間のスコア、および各llmの回答安定性、相関、応答信頼度を意味する。
一方,ChatGPT (GPT-3.5) と PaLM2 は医学生よりも成績が高かったが,大学院生はわずかに遅れていた。
さらに, GPT-4は, ChatGPT (GPT-3.5) や PaLM2 と比較して, 質問応答時の安定性と信頼性が高かった。
小児眼科における LLM の医療支援の可能性について考察し, 医学生の教育指導に有意な能力があることを示唆した。
関連論文リスト
- Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - A Survey of Large Language Models in Medicine: Progress, Application,
and Challenge [86.4234483148876]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Evaluating Large Language Models in Ophthalmology [34.13457684015814]
眼科専門の質問に答える3つの異なる大言語モデル(LLMS)の性能を評価した。
GPT-4 は GPT-3.5 や PaLM2 よりも回答安定性と信頼性が有意に高かった。
論文 参考訳(メタデータ) (2023-11-07T16:19:45Z) - Integrating UMLS Knowledge into Large Language Models for Medical
Question Answering [18.06960842747575]
大規模言語モデル(LLM)は強力なテキスト生成能力を示し、医療分野に前例のない革新をもたらした。
我々は、医療コミュニティにより良いサービスを提供することを目的として、UMLS(Unified Medical Language System)に基づく拡張LLMフレームワークを開発する。
ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。
論文 参考訳(メタデータ) (2023-10-04T12:50:26Z) - Augmenting Black-box LLMs with Medical Textbooks for Clinical Question
Answering [54.13933019557655]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large
Language Models in Medicine [16.75133391080187]
総合的な文献レビューに基づいて評価基準のセットを設計する。
既存の候補基準は、医学と工学の専門家5名によるデルファイ法の使用に最適化されている。
3つのチャットボットが評価され、OpenAIのChatGPT、BaiduのERNIEボット、上海人工知能研究所のDr. PuJiang(Dr.PJ)が評価されている。
論文 参考訳(メタデータ) (2023-05-12T09:37:13Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。