論文の概要: Fine-tuning Large Language Model (LLM) Artificial Intelligence Chatbots
in Ophthalmology and LLM-based evaluation using GPT-4
- arxiv url: http://arxiv.org/abs/2402.10083v1
- Date: Thu, 15 Feb 2024 16:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:47:21.652268
- Title: Fine-tuning Large Language Model (LLM) Artificial Intelligence Chatbots
in Ophthalmology and LLM-based evaluation using GPT-4
- Title(参考訳): GPT-4を用いた眼科用微調整大型言語モデル(LLM)人工知能チャットボットとLCMによる評価
- Authors: Ting Fang Tan, Kabilan Elangovan, Liyuan Jin, Yao Jie, Li Yong, Joshua
Lim, Stanley Poh, Wei Yan Ng, Daniel Lim, Yuhe Ke, Nan Liu, Daniel Shu Wei
Ting
- Abstract要約: 400の眼科質問とペアの回答が眼科医によって作成され、一般に求められている患者の質問を表現した。
LLAMA2-7b, LLAMA2-7b-Chat, LLAMA2-13b, LLAMA2-13b-Chatを含む5種類のLLMを調整した。
GPT-4の評価は, 臨床精度, 関連性, 患者の安全性, 理解の容易さに基礎を置いている。
- 参考スコア(独自算出の注目度): 2.3715885775680925
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Purpose: To assess the alignment of GPT-4-based evaluation to human clinician
experts, for the evaluation of responses to ophthalmology-related patient
queries generated by fine-tuned LLM chatbots. Methods: 400 ophthalmology
questions and paired answers were created by ophthalmologists to represent
commonly asked patient questions, divided into fine-tuning (368; 92%), and
testing (40; 8%). We find-tuned 5 different LLMs, including LLAMA2-7b,
LLAMA2-7b-Chat, LLAMA2-13b, and LLAMA2-13b-Chat. For the testing dataset,
additional 8 glaucoma QnA pairs were included. 200 responses to the testing
dataset were generated by 5 fine-tuned LLMs for evaluation. A customized
clinical evaluation rubric was used to guide GPT-4 evaluation, grounded on
clinical accuracy, relevance, patient safety, and ease of understanding. GPT-4
evaluation was then compared against ranking by 5 clinicians for clinical
alignment. Results: Among all fine-tuned LLMs, GPT-3.5 scored the highest
(87.1%), followed by LLAMA2-13b (80.9%), LLAMA2-13b-chat (75.5%),
LLAMA2-7b-Chat (70%) and LLAMA2-7b (68.8%) based on the GPT-4 evaluation. GPT-4
evaluation demonstrated significant agreement with human clinician rankings,
with Spearman and Kendall Tau correlation coefficients of 0.90 and 0.80
respectively; while correlation based on Cohen Kappa was more modest at 0.50.
Notably, qualitative analysis and the glaucoma sub-analysis revealed clinical
inaccuracies in the LLM-generated responses, which were appropriately
identified by the GPT-4 evaluation. Conclusion: The notable clinical alignment
of GPT-4 evaluation highlighted its potential to streamline the clinical
evaluation of LLM chatbot responses to healthcare-related queries. By
complementing the existing clinician-dependent manual grading, this efficient
and automated evaluation could assist the validation of future developments in
LLM applications for healthcare.
- Abstract(参考訳): 目的: 微調整LLMチャットボットによる眼科関連患者の質問に対する応答の評価において, ヒト臨床専門医に対するGPT-4に基づく評価のアライメントを評価すること。
方法:400の眼科質問とペア答が眼科医によって作成され,一般に質問される患者の質問を表現し,微調整(368; 92%),検査(40; 8%)に分けられた。
LLAMA2-7b, LLAMA2-7b-Chat, LLAMA2-13b, LLAMA2-13b-Chatを含む5種類のLLMを調整した。
テストデータセットには、さらに8つの緑内障QnAペアが含まれていた。
テストデータセットに対する200の応答は、評価のために5つの微調整LDMによって生成された。
GPT-4の評価は, 臨床精度, 関連性, 患者の安全性, 理解の容易さに基礎を置いている。
gpt-4の評価を5名の臨床医で比較した。
結果: GPT-3.5が87.1%, LLAMA2-13bが80.9%, LLAMA2-13b-chatが75.5%, LLAMA2-7b-Chatが70%, LLAMA2-7bが68.8%であった。
GPT-4の評価では,SpearmanとKendall Tauの相関係数は0.90,Kendall Tauは0.80,Cohen Kappaの相関係数は0.50であった。
特に, 質的解析と緑内障のサブアナリシスの結果, LLM産生反応の臨床的不正確性が明らかとなり, GPT-4の評価で適切に同定された。
結論: GPT-4 評価の顕著な臨床適応は,医療関連質問に対する LLM チャットボット応答の臨床評価の合理化の可能性を強調した。
既存のクリニック依存の手動グルーピングを補完することにより、この効率的かつ自動化された評価は、医療用LLMアプリケーションにおける将来の開発を検証するのに役立つ。
関連論文リスト
- Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - Decomposing Vision-based LLM Predictions for Auto-Evaluation with GPT-4 [14.884877292068351]
世界中のCT検査の量は毎年増加しており、放射線技師のバーンアウトにつながっている。大型言語モデル(LLM)は負担軽減の可能性を秘めているが、診療所での採用は放射線技師の信頼に依存している。
我々は,CTに基づく異常の正確な要約を生成する上で,視覚言語LLMの能力を評価するための新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T21:16:28Z) - Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - Impact of Large Language Model Assistance on Patients Reading Clinical
Notes: A Mixed-Methods Study [47.61555826813361]
複雑な医療概念と臨床ノートの中の用語は、患者の理解を妨げ、不安を引き起こす可能性がある。
そこで我々は,ノートにコンテキストを付加し,情報を簡素化し,抽出する患者対応ツールを開発した。
臨床医による誤診で誤診がみられ, 誤診がみられた。
論文 参考訳(メタデータ) (2024-01-17T23:14:52Z) - Large Language Models in Medical Term Classification and Unexpected
Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。
データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。
FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文 参考訳(メタデータ) (2023-12-19T17:36:48Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Improving Patient Pre-screening for Clinical Trials: Assisting
Physicians with Large Language Models [0.0]
LLM(Large Language Models)は臨床情報抽出や臨床推論に有効であることが示されている。
本稿では,患者の総合的医療プロファイルに基づく臨床治験の適性判定に医師を支援するために,インストラクションGPTを用いることを検討した。
論文 参考訳(メタデータ) (2023-04-14T21:19:46Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。