論文の概要: Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study
- arxiv url: http://arxiv.org/abs/2402.01693v1
- Date: Tue, 23 Jan 2024 22:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:38:15.989947
- Title: Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study
- Title(参考訳): 乳児における大規模言語モデル作成者に対する回答の質 : 実験結果の解釈のための評価研究
- Authors: Zhe He, Balu Bhasuran, Qiao Jin, Shubo Tian, Karim Hanna, Cindy
Shavor, Lisbeth Garcia Arguello, Patrick Murray, Zhiyong Lu
- Abstract要約: 大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
- 参考スコア(独自算出の注目度): 5.823006266363981
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lab results are often confusing and hard to understand. Large language models
(LLMs) such as ChatGPT have opened a promising avenue for patients to get their
questions answered. We aim to assess the feasibility of using LLMs to generate
relevant, accurate, helpful, and unharmful responses to lab test-related
questions asked by patients and to identify potential issues that can be
mitigated with augmentation approaches. We first collected lab test results
related question and answer data from Yahoo! Answers and selected 53 QA pairs
for this study. Using the LangChain framework and ChatGPT web portal, we
generated responses to the 53 questions from four LLMs including GPT-4, Meta
LLaMA 2, MedAlpaca, and ORCA_mini. We first assessed the similarity of their
answers using standard QA similarity-based evaluation metrics including ROUGE,
BLEU, METEOR, BERTScore. We also utilized an LLM-based evaluator to judge
whether a target model has higher quality in terms of relevance, correctness,
helpfulness, and safety than the baseline model. Finally, we performed a manual
evaluation with medical experts for all the responses to seven selected
questions on the same four aspects. The results of Win Rate and medical expert
evaluation both showed that GPT-4's responses achieved better scores than all
the other LLM responses and human responses on all four aspects (relevance,
correctness, helpfulness, and safety). However, LLM responses occasionally also
suffer from a lack of interpretation in one's medical context, incorrect
statements, and lack of references. We find that compared to other three LLMs
and human answer from the Q&A website, GPT-4's responses are more accurate,
helpful, relevant, and safer. However, there are cases which GPT-4 responses
are inaccurate and not individualized. We identified a number of ways to
improve the quality of LLM responses.
- Abstract(参考訳): 実験結果はしばしば混乱し、理解しにくい。
ChatGPTのような大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
本研究の目的は, 患者が質問した検査関連質問に対して, 関連性, 正確性, 有用性, 不害性のある回答をLLMを用いて生成し, 拡張アプローチで軽減できる可能性を明らかにすることである。
最初に実験結果に関する質問と回答をYahoo!の回答から収集し,53組のQAペアを選択した。
LangChainフレームワークとChatGPT Webポータルを使用して、GPT-4、Meta LLaMA 2、MedAlpaca、ORCA_miniを含む4つのLCMから53の質問に応答した。
まず, ROUGE, BLEU, METEOR, BERTScoreなどの標準QA類似度評価指標を用いて, 回答の類似性を評価する。
また, LLMに基づく評価器を用いて, 対象モデルが基準モデルよりも妥当性, 正確性, 有用性, 安全性が高いかどうかを判定した。
最後に,同じ4つの側面から選択した7つの質問に対するすべての回答について,医療専門家と手動で評価を行った。
Win Rate と医療専門家による評価の結果, GPT-4 の反応は, 他の全ての LLM 反応とヒトの反応(関連性,正当性,有用性,安全性)よりも良好であった。
しかし、LSMの反応は時々、医学的文脈における解釈の欠如、誤った発言、参照の欠如に悩まされる。
他の3つのLCMとQ&Aウェブサイトの人間による回答と比較して、GPT-4の応答はより正確で、有用で、関連性があり、安全である。
しかし、GPT-4応答が不正確で個別化されていないケースもある。
LLM応答の質を改善するためのいくつかの方法を特定した。
関連論文リスト
- LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses [26.850344968677582]
本研究では,大規模言語モデルを用いたオープンエンド質問に対する回答評価手法を提案する。
また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。
以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。
論文 参考訳(メタデータ) (2024-10-02T05:22:07Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Answering real-world clinical questions using large language model based systems [2.2605659089865355]
大規模言語モデル(LLM)は、出版された文献を要約するか、実世界データ(RWD)に基づいた新しい研究を生成することによって、両方の課題に対処できる可能性がある。
臨床50問に回答する5つのLCMベースのシステムについて検討し,9名の医師に関連性,信頼性,行動性について検討した。
論文 参考訳(メタデータ) (2024-06-29T22:39:20Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。
本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。
GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。
我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文 参考訳(メタデータ) (2024-05-23T10:00:14Z) - Fine-tuning Large Language Model (LLM) Artificial Intelligence Chatbots
in Ophthalmology and LLM-based evaluation using GPT-4 [2.3715885775680925]
400の眼科質問とペアの回答が眼科医によって作成され、一般に求められている患者の質問を表現した。
LLAMA2-7b, LLAMA2-7b-Chat, LLAMA2-13b, LLAMA2-13b-Chatを含む5種類のLLMを調整した。
GPT-4の評価は, 臨床精度, 関連性, 患者の安全性, 理解の容易さに基礎を置いている。
論文 参考訳(メタデータ) (2024-02-15T16:43:41Z) - GPT-4's assessment of its performance in a USMLE-based case study [3.2372388230841977]
本研究は、医療応用におけるGPT-4の評価について検討する。
質問票は,フィードバック(WF)とフィードバック(NF)のない質問(NF)の2つに分類した。
結果は、フィードバックは相対的な信頼に影響を及ぼすが、継続的に増加または減少しないことを示している。
論文 参考訳(メタデータ) (2024-02-15T01:38:50Z) - Evaluation of GPT-3.5 and GPT-4 for supporting real-world information
needs in healthcare delivery [17.47170218010073]
本研究の目的は, 2つの大規模言語モデル (LLM) が, 医師が提供した情報ニーズを, 安全かつ一致した方法で情報相談サービスに提供できるかどうかを判断することであった。
GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。
回答の20%未満は、情報相談サービスからの回答と一致し、回答には幻覚的基準が含まれており、医師は被害を構成するものについて分割された。
論文 参考訳(メタデータ) (2023-04-26T17:54:28Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。