論文の概要: Effects of Different Prompts on the Quality of GPT-4 Responses to Dementia Care Questions
- arxiv url: http://arxiv.org/abs/2404.08674v1
- Date: Fri, 5 Apr 2024 19:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-21 19:54:47.238781
- Title: Effects of Different Prompts on the Quality of GPT-4 Responses to Dementia Care Questions
- Title(参考訳): 異なるプロンプトが認知症ケア質問に対する GPT-4 の質に及ぼす影響
- Authors: Zhuochun Li, Bo Xie, Robin Hilsabeck, Alyssa Aguirre, Ning Zou, Zhimeng Luo, Daqing He,
- Abstract要約: Evidenceは、異なるプロンプトが大きな言語モデル(LLM)を誘導し、様々な品質で応答を生成することを示唆している。
しかし、医療領域の応答品質に対するプロンプトの影響についてはほとんど分かっていない。
本研究は、認知症介護という特定の医療領域に焦点を当てる。
- 参考スコア(独自算出の注目度): 3.3302173686826166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evidence suggests that different prompts lead large language models (LLMs) to generate responses with varying quality. Yet, little is known about prompts' effects on response quality in healthcare domains. In this exploratory study, we address this gap, focusing on a specific healthcare domain: dementia caregiving. We first developed an innovative prompt template with three components: (1) system prompts (SPs) featuring 4 different roles; (2) an initialization prompt; and (3) task prompts (TPs) specifying different levels of details, totaling 12 prompt combinations. Next, we selected 3 social media posts containing complicated, real-world questions about dementia caregivers' challenges in 3 areas: memory loss and confusion, aggression, and driving. We then entered these posts into GPT-4, with our 12 prompts, to generate 12 responses per post, totaling 36 responses. We compared the word count of the 36 responses to explore potential differences in response length. Two experienced dementia care clinicians on our team assessed the response quality using a rating scale with 5 quality indicators: factual, interpretation, application, synthesis, and comprehensiveness (scoring range: 0-5; higher scores indicate higher quality).
- Abstract(参考訳): Evidenceは、異なるプロンプトが大きな言語モデル(LLM)を誘導し、様々な品質で応答を生成することを示唆している。
しかし、医療領域の応答品質に対するプロンプトの影響についてはほとんど分かっていない。
本研究は,認知症介護という特定の医療領域に焦点をあてて,このギャップに対処するものである。
我々はまず,(1)システムプロンプト(SP)と(2)初期化プロンプト,(3)タスクプロンプト(TP)の3つの要素からなる革新的なプロンプトテンプレートを開発した。
次に,認知症介護者の課題に関する複雑で現実的な質問を含む3つのソーシャルメディア投稿を,記憶喪失と混乱,攻撃,運転の3分野に選定した。
そして、これらのポストを12のプロンプトでGPT-4に入力し、1ポストあたり12のレスポンスを生成し、合計36のレスポンスを生成しました。
応答長の潜在的な差異を検討するために,36の応答の単語数を比較した。
経験豊富な認知症診療医2名を対象に,評価尺度を5つの指標(事実,解釈,応用,合成,包括性(スコア範囲0-5,より高いスコアはより高い品質を示す)で評価した。
関連論文リスト
- Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - Analyzing Human Questioning Behavior and Causal Curiosity through Natural Queries [91.70689724416698]
NatQuest(ナットクエスト)は、3つの異なるソースから自然発生の質問13,500件のコレクションである。
分析の結果,データセット内には因果的疑問(最大42%)が有意な存在であることが判明した。
論文 参考訳(メタデータ) (2024-05-30T17:55:28Z) - Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - Multimodal ChatGPT for Medical Applications: an Experimental Study of
GPT-4V [20.84152508192388]
我々は、最先端のマルチモーダル言語モデルであるGPT-4 with Vision(GPT-4V)の能力について批判的に評価する。
本実験は,画像と組み合わせた問診におけるGPT-4Vの習熟度を,病理と放射線学の両方のデータセットを用いて徹底的に評価した。
精度試験の結果、GPT-4Vの現在のバージョンは現実世界の診断には推奨されないことがわかった。
論文 参考訳(メタデータ) (2023-10-29T16:26:28Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Performance of ChatGPT-3.5 and GPT-4 on the United States Medical
Licensing Examination With and Without Distractions [17.813396230160095]
本研究は,ChatGPTが提供する医療アドバイスの精度に及ぼす医療データと小話の混合の影響について検討した。
我々は、Mechanical Turkプラットフォームを用いて、人間の参加者から小さな講演文を収集した。
ChatGPT-4は、以前の3.5バージョンよりも正確で、小さな講演では、医療勧告を提供する能力が損なわれていないようである。
論文 参考訳(メタデータ) (2023-09-12T05:54:45Z) - Evaluation of GPT-3.5 and GPT-4 for supporting real-world information
needs in healthcare delivery [17.47170218010073]
本研究の目的は, 2つの大規模言語モデル (LLM) が, 医師が提供した情報ニーズを, 安全かつ一致した方法で情報相談サービスに提供できるかどうかを判断することであった。
GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。
回答の20%未満は、情報相談サービスからの回答と一致し、回答には幻覚的基準が含まれており、医師は被害を構成するものについて分割された。
論文 参考訳(メタデータ) (2023-04-26T17:54:28Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Medical Question Understanding and Answering with Knowledge Grounding
and Semantic Self-Supervision [53.692793122749414]
本稿では,知識基盤とセマンティック・セルフスーパービジョンを備えた医療質問理解・回答システムについて紹介する。
我々のシステムは、まず、教師付き要約損失を用いて、長い医学的、ユーザによる質問を要約するパイプラインである。
システムはまず、信頼された医療知識ベースから要約されたユーザ質問とFAQとをマッチングし、対応する回答文書から一定の数の関連文を検索する。
論文 参考訳(メタデータ) (2022-09-30T08:20:32Z) - Building and Evaluating Open-Domain Dialogue Corpora with Clarifying
Questions [65.60888490988236]
オープンドメインのシングルターンとマルチターンの会話に焦点を当てたデータセットをリリースする。
我々は最先端のニューラルベースラインをいくつかベンチマークする。
様々な対話における質問の明確化の質を評価するための,オフラインおよびオンラインのステップからなるパイプラインを提案する。
論文 参考訳(メタデータ) (2021-09-13T09:16:14Z) - A Qualitative Evaluation of Language Models on Automatic
Question-Answering for COVID-19 [4.676651062800037]
新型コロナウイルスは740万人以上の感染者と41万8000人以上の死者を出した。
オンラインコミュニティ、フォーラム、ソーシャルメディアは、関連する質問や回答を検索する潜在的な場所を提供する。
本稿では,新型コロナウイルスに関する質問に自動回答する言語モデルを適用し,生成した回答を質的に評価する。
論文 参考訳(メタデータ) (2020-06-19T05:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。