Fugu-MT 論文翻訳(概要): Evaluating multiple large language models in pediatric ophthalmology

論文の概要: Evaluating multiple large language models in pediatric ophthalmology

arxiv url: http://arxiv.org/abs/2311.04368v1
Date: Tue, 7 Nov 2023 22:23:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 17:44:33.478931
Title: Evaluating multiple large language models in pediatric ophthalmology
Title（参考訳）: 小児眼科における多言語モデルの評価
Authors: Jason Holmes, Rui Peng, Yiwei Li, Jinyu Hu, Zhengliang Liu, Zihao Wu, Huan Zhao, Xi Jiang, Wei Liu, Hong Wei, Jie Zou, Tianming Liu, Yi Shao
Abstract要約: 小児眼科領域における各種大言語モデル(LLM)と各種個人の有効性は明らかになっていない。本調査は,高度に専門化されたシナリオにおけるLCMの性能を評価し,異なるレベルの医学生と医師のパフォーマンスと比較した。
参考スコア（独自算出の注目度）: 37.16480878552708
License: http://creativecommons.org/licenses/by/4.0/
Abstract: IMPORTANCE The response effectiveness of different large language models (LLMs) and various individuals, including medical students, graduate students, and practicing physicians, in pediatric ophthalmology consultations, has not been clearly established yet. OBJECTIVE Design a 100-question exam based on pediatric ophthalmology to evaluate the performance of LLMs in highly specialized scenarios and compare them with the performance of medical students and physicians at different levels. DESIGN, SETTING, AND PARTICIPANTS This survey study assessed three LLMs, namely ChatGPT (GPT-3.5), GPT-4, and PaLM2, were assessed alongside three human cohorts: medical students, postgraduate students, and attending physicians, in their ability to answer questions related to pediatric ophthalmology. It was conducted by administering questionnaires in the form of test papers through the LLM network interface, with the valuable participation of volunteers. MAIN OUTCOMES AND MEASURES Mean scores of LLM and humans on 100 multiple-choice questions, as well as the answer stability, correlation, and response confidence of each LLM. RESULTS GPT-4 performed comparably to attending physicians, while ChatGPT (GPT-3.5) and PaLM2 outperformed medical students but slightly trailed behind postgraduate students. Furthermore, GPT-4 exhibited greater stability and confidence when responding to inquiries compared to ChatGPT (GPT-3.5) and PaLM2. CONCLUSIONS AND RELEVANCE Our results underscore the potential for LLMs to provide medical assistance in pediatric ophthalmology and suggest significant capacity to guide the education of medical students.
Abstract（参考訳）: 小児眼科の診察において、異なる大言語モデル(llm)と、医学生、大学院生、医師を含む様々な個人による反応効果が明確に確立されていない。客観的な設計小児眼科に基づく100名の質問試験で、高度に特殊なシナリオでllmの性能を評価し、異なるレベルの医学生や医師のパフォーマンスと比較する。本研究は, 小児眼科における質問への回答能力として, 医学生, 大学院生, 医師の3人のコホートとともに, chatgpt (gpt-3.5), gpt-4, palm2の3つのllmを評価した。 LLMネットワークインタフェースを用いたテストペーパーの形式でアンケートを実施し,ボランティアの有意義な参加によって実施した。主な結果と尺度は、100のマルチチョイス質問に対するllmと人間のスコア、および各llmの回答安定性、相関、応答信頼度を意味する。一方,ChatGPT (GPT-3.5) と PaLM2 は医学生よりも成績が高かったが,大学院生はわずかに遅れていた。さらに, GPT-4は, ChatGPT (GPT-3.5) や PaLM2 と比較して, 質問応答時の安定性と信頼性が高かった。小児眼科における LLM の医療支援の可能性について考察し, 医学生の教育指導に有意な能力があることを示唆した。

関連論文リスト

The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams [9.802579169561781]
大規模言語モデル(LLM)は、数発のプロンプトに基づいて、医学的資格試験の質問とそれに対応する回答を生成することができる。研究によると、LSMは数発のプロンプトを使った後、現実世界の医学試験の質問を効果的に模倣できることがわかった。
論文参考訳（メタデータ） (2024-10-31T09:33:37Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-08-22T17:44:40Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Specialized curricula for training vision-language models in retinal image analysis [8.167708226285932]
視覚言語モデル(VLM)は画像を自動的に解釈し、その結果をテキストとして要約する。本研究では, OpenAI の ChatGPT-4o モデルは, 専門職における眼科医の実践に比べ, 明らかに低性能であることを示す。
論文参考訳（メタデータ） (2024-07-11T11:31:48Z)
Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。 GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。 GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文参考訳（メタデータ） (2024-01-23T22:03:51Z)
MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文参考訳（メタデータ） (2023-12-20T07:01:49Z)
Evaluating Large Language Models in Ophthalmology [34.13457684015814]
眼科専門の質問に答える3つの異なる大言語モデル(LLMS)の性能を評価した。 GPT-4 は GPT-3.5 や PaLM2 よりも回答安定性と信頼性が有意に高かった。
論文参考訳（メタデータ） (2023-11-07T16:19:45Z)
Integrating UMLS Knowledge into Large Language Models for Medical Question Answering [18.06960842747575]
大規模言語モデル(LLM)は強力なテキスト生成能力を示し、医療分野に前例のない革新をもたらした。我々は、医療コミュニティにより良いサービスを提供することを目的として、UMLS(Unified Medical Language System)に基づく拡張LLMフレームワークを開発する。ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。
論文参考訳（メタデータ） (2023-10-04T12:50:26Z)
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文参考訳（メタデータ） (2023-09-05T13:39:38Z)
Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文参考訳（メタデータ） (2023-03-20T16:18:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。