論文の概要: Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study
- arxiv url: http://arxiv.org/abs/2402.01693v1
- Date: Tue, 23 Jan 2024 22:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:38:15.989947
- Title: Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study
- Title(参考訳): 乳児における大規模言語モデル作成者に対する回答の質 : 実験結果の解釈のための評価研究
- Authors: Zhe He, Balu Bhasuran, Qiao Jin, Shubo Tian, Karim Hanna, Cindy
Shavor, Lisbeth Garcia Arguello, Patrick Murray, Zhiyong Lu
- Abstract要約: 大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
- 参考スコア(独自算出の注目度): 5.823006266363981
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lab results are often confusing and hard to understand. Large language models
(LLMs) such as ChatGPT have opened a promising avenue for patients to get their
questions answered. We aim to assess the feasibility of using LLMs to generate
relevant, accurate, helpful, and unharmful responses to lab test-related
questions asked by patients and to identify potential issues that can be
mitigated with augmentation approaches. We first collected lab test results
related question and answer data from Yahoo! Answers and selected 53 QA pairs
for this study. Using the LangChain framework and ChatGPT web portal, we
generated responses to the 53 questions from four LLMs including GPT-4, Meta
LLaMA 2, MedAlpaca, and ORCA_mini. We first assessed the similarity of their
answers using standard QA similarity-based evaluation metrics including ROUGE,
BLEU, METEOR, BERTScore. We also utilized an LLM-based evaluator to judge
whether a target model has higher quality in terms of relevance, correctness,
helpfulness, and safety than the baseline model. Finally, we performed a manual
evaluation with medical experts for all the responses to seven selected
questions on the same four aspects. The results of Win Rate and medical expert
evaluation both showed that GPT-4's responses achieved better scores than all
the other LLM responses and human responses on all four aspects (relevance,
correctness, helpfulness, and safety). However, LLM responses occasionally also
suffer from a lack of interpretation in one's medical context, incorrect
statements, and lack of references. We find that compared to other three LLMs
and human answer from the Q&A website, GPT-4's responses are more accurate,
helpful, relevant, and safer. However, there are cases which GPT-4 responses
are inaccurate and not individualized. We identified a number of ways to
improve the quality of LLM responses.
- Abstract(参考訳): 実験結果はしばしば混乱し、理解しにくい。
ChatGPTのような大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
本研究の目的は, 患者が質問した検査関連質問に対して, 関連性, 正確性, 有用性, 不害性のある回答をLLMを用いて生成し, 拡張アプローチで軽減できる可能性を明らかにすることである。
最初に実験結果に関する質問と回答をYahoo!の回答から収集し,53組のQAペアを選択した。
LangChainフレームワークとChatGPT Webポータルを使用して、GPT-4、Meta LLaMA 2、MedAlpaca、ORCA_miniを含む4つのLCMから53の質問に応答した。
まず, ROUGE, BLEU, METEOR, BERTScoreなどの標準QA類似度評価指標を用いて, 回答の類似性を評価する。
また, LLMに基づく評価器を用いて, 対象モデルが基準モデルよりも妥当性, 正確性, 有用性, 安全性が高いかどうかを判定した。
最後に,同じ4つの側面から選択した7つの質問に対するすべての回答について,医療専門家と手動で評価を行った。
Win Rate と医療専門家による評価の結果, GPT-4 の反応は, 他の全ての LLM 反応とヒトの反応(関連性,正当性,有用性,安全性)よりも良好であった。
しかし、LSMの反応は時々、医学的文脈における解釈の欠如、誤った発言、参照の欠如に悩まされる。
他の3つのLCMとQ&Aウェブサイトの人間による回答と比較して、GPT-4の応答はより正確で、有用で、関連性があり、安全である。
しかし、GPT-4応答が不正確で個別化されていないケースもある。
LLM応答の質を改善するためのいくつかの方法を特定した。
関連論文リスト
- Fine-tuning Large Language Model (LLM) Artificial Intelligence Chatbots
in Ophthalmology and LLM-based evaluation using GPT-4 [2.3715885775680925]
400の眼科質問とペアの回答が眼科医によって作成され、一般に求められている患者の質問を表現した。
LLAMA2-7b, LLAMA2-7b-Chat, LLAMA2-13b, LLAMA2-13b-Chatを含む5種類のLLMを調整した。
GPT-4の評価は, 臨床精度, 関連性, 患者の安全性, 理解の容易さに基礎を置いている。
論文 参考訳(メタデータ) (2024-02-15T16:43:41Z) - GPT-4's assessment of its performance in a USMLE-based case study [3.3766673665651767]
本研究は、医療応用におけるGPT-4の評価について検討する。
質問票は,フィードバック(WF)とフィードバック(NF)のない質問(NF)の2つに分類した。
結果は、フィードバックは相対的な信頼に影響を及ぼすが、継続的に増加または減少しないことを示している。
論文 参考訳(メタデータ) (2024-02-15T01:38:50Z) - Addressing cognitive bias in medical language models [25.58126133789956]
BiasMedQAは、医療タスクに適用された大規模言語モデル(LLM)の認知バイアスを評価するためのベンチマークである。
USMLE(US Medical Licensing Exam)ステップ1、2、3の1273の質問に対して、6つのモデルを試した。
GPT-4は認知バイアスの影響を受けないLlama 2 70B-chatとPMC Llama 13Bとは対照的に, バイアスに対する耐性が顕著であった。
論文 参考訳(メタデータ) (2024-02-12T23:08:37Z) - NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation [92.5132418788568]
Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
1) 幻覚率, 解答の幻覚傾向, 解答が非関連部分集合の通路に存在しない場合, および(ii) 誤差率, モデル不正確さを測定し, 関連する部分集合の通路を認識する。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Augmenting Black-box LLMs with Medical Textbooks for Clinical Question
Answering [54.13933019557655]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文 参考訳(メタデータ) (2023-05-26T17:33:05Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Evaluation of GPT-3.5 and GPT-4 for supporting real-world information
needs in healthcare delivery [17.47170218010073]
本研究の目的は, 2つの大規模言語モデル (LLM) が, 医師が提供した情報ニーズを, 安全かつ一致した方法で情報相談サービスに提供できるかどうかを判断することであった。
GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。
回答の20%未満は、情報相談サービスからの回答と一致し、回答には幻覚的基準が含まれており、医師は被害を構成するものについて分割された。
論文 参考訳(メタデータ) (2023-04-26T17:54:28Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。