論文の概要: Performance Evaluation of Lightweight Open-source Large Language Models in Pediatric Consultations: A Comparative Analysis
- arxiv url: http://arxiv.org/abs/2407.15862v1
- Date: Tue, 16 Jul 2024 03:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-28 18:29:13.428483
- Title: Performance Evaluation of Lightweight Open-source Large Language Models in Pediatric Consultations: A Comparative Analysis
- Title(参考訳): 小児相談における軽量オープンソース大言語モデルの性能評価 : 比較分析
- Authors: Qiuhong Wei, Ying Cui, Mengwei Ding, Yanqin Wang, Lingling Xiang, Zhengxiong Yao, Ceran Chen, Ying Long, Zhezhen Jin, Ximing Xu,
- Abstract要約: 大きな言語モデル(LLM)のオープンソース版と軽量版が潜在的な解決策として浮上するが、その性能は未検討のままである。
本研究は, 公立オンライン医療フォーラムから250件の患者相談質問をランダムに選択し, 小児科25部門から10件の質問を行った。
ChatGLM3-6BはVicuna-13BやVicuna-7B(P .001)よりも精度と完全性を示したが、すべてChatGPT-3.5より優れていた。
- 参考スコア(独自算出の注目度): 5.341999383143898
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have demonstrated potential applications in medicine, yet data privacy and computational burden limit their deployment in healthcare institutions. Open-source and lightweight versions of LLMs emerge as potential solutions, but their performance, particularly in pediatric settings remains underexplored. In this cross-sectional study, 250 patient consultation questions were randomly selected from a public online medical forum, with 10 questions from each of 25 pediatric departments, spanning from December 1, 2022, to October 30, 2023. Two lightweight open-source LLMs, ChatGLM3-6B and Vicuna-7B, along with a larger-scale model, Vicuna-13B, and the widely-used proprietary ChatGPT-3.5, independently answered these questions in Chinese between November 1, 2023, and November 7, 2023. To assess reproducibility, each inquiry was replicated once. We found that ChatGLM3-6B demonstrated higher accuracy and completeness than Vicuna-13B and Vicuna-7B (P < .001), but all were outperformed by ChatGPT-3.5. ChatGPT-3.5 received the highest ratings in accuracy (65.2%) compared to ChatGLM3-6B (41.2%), Vicuna-13B (11.2%), and Vicuna-7B (4.4%). Similarly, in completeness, ChatGPT-3.5 led (78.4%), followed by ChatGLM3-6B (76.0%), Vicuna-13B (34.8%), and Vicuna-7B (22.0%) in highest ratings. ChatGLM3-6B matched ChatGPT-3.5 in readability, both outperforming Vicuna models (P < .001). In terms of empathy, ChatGPT-3.5 outperformed the lightweight LLMs (P < .001). In safety, all models performed comparably well (P > .05), with over 98.4% of responses being rated as safe. Repetition of inquiries confirmed these findings. In conclusion, Lightweight LLMs demonstrate promising application in pediatric healthcare. However, the observed gap between lightweight and large-scale proprietary LLMs underscores the need for continued development efforts.
- Abstract(参考訳): 大規模言語モデル(LLM)は医療への応用の可能性を示しているが、データのプライバシーと計算上の負担は医療機関への展開を制限する。
LLMのオープンソース版と軽量版は潜在的な解決策として浮上するが、その性能、特に小児科の環境では未調査である。
2022年12月1日から2023年10月30日にかけて、25の小児科からそれぞれ10の質問が寄せられた。
2つの軽量オープンソースLLM、ChatGLM3-6BとVicuna-7Bは、より大規模なモデルであるVicuna-13Bと、広く使われているプロプライエタリなChatGPT-3.5と共に、2023年11月1日から2023年11月7日までの間に、これらの質問に独立して答えた。
再現性を評価するために、各調査は一度複製された。
We found that ChatGLM3-6B showed higher accuracy and completeness than Vicuna-13B and Vicuna-7B (P < .001) but all performance by ChatGPT-3.5。
ChatGPT-3.5は、ChatGLM3-6B (41.2%)、Vicuna-13B (11.2%)、Vicuna-7B (4.4%)と比較して高い評価を受けた。
同様に、ChatGPT-3.5が78.4%、ChatGLM3-6Bが76.0%、Vicuna-13Bが34.8%、Vicuna-7Bが22.0%だった。
ChatGLM3-6Bは読みやすさにおいてChatGPT-3.5と一致し、どちらもVicunaモデル(P < .001)を上回った。
共感の面では、ChatGPT-3.5は軽量LLM(P < .001)よりも優れていた。
安全性の面では、全てのモデルが良好に動作し(P > .05)、98.4%以上の応答が安全であると評価された。
調査を繰り返して確認した。
結論として、軽量LSMは小児医療に有望な応用を実証している。
しかし、軽量と大規模プロプライエタリなLLM間のギャップは、継続的な開発努力の必要性を浮き彫りにしている。
関連論文リスト
- LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Enhancing Large Language Models with Domain-specific Retrieval Augment Generation: A Case Study on Long-form Consumer Health Question Answering in Ophthalmology [34.82874325860935]
医学における大規模言語モデル(LLM)は、幻覚的証拠に基づく証拠を欠いた応答を生成する可能性がある。
我々は,7万件の眼科用文書を用いたRAGパイプラインを開発し,推測時間にLCMを増大させるために関連文書を検索した。
医療従事者10名を対象に,RAGの有無を問う質問100件において, LLMの500件以上の基準を含む回答を評価した。
論文 参考訳(メタデータ) (2024-09-20T21:06:00Z) - Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models [0.06555599394344236]
本研究では,大言語モデル (LLMs) と視覚言語モデル (VLMs) の胃腸科学における医学的推論性能を評価する。
我々は,300の胃腸科検査式多票質問紙を使用し,そのうち138は画像を含んでいた。
論文 参考訳(メタデータ) (2024-08-25T14:50:47Z) - Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。
最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。
オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文 参考訳(メタデータ) (2024-07-25T05:03:01Z) - Evaluating the Application of ChatGPT in Outpatient Triage Guidance: A Comparative Study [11.37622565068147]
医療における人工知能の統合は、運用効率と健康結果を高めるための変革的な可能性を示している。
ChatGPTのような大規模言語モデル(LLM)は、医療的意思決定をサポートする能力を示している。
本研究の目的は,ChatGPTが提示する応答の整合性を評価することである。
論文 参考訳(メタデータ) (2024-04-27T04:12:02Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文 参考訳(メタデータ) (2023-05-26T17:33:05Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。