論文の概要: Evaluation of AI Chatbots for Patient-Specific EHR Questions
- arxiv url: http://arxiv.org/abs/2306.02549v1
- Date: Mon, 5 Jun 2023 02:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 17:18:52.892192
- Title: Evaluation of AI Chatbots for Patient-Specific EHR Questions
- Title(参考訳): 患者特有のEHR質問に対するAIチャットボットの評価
- Authors: Alaleh Hamidi and Kirk Roberts
- Abstract要約: 当社では、ChatGPT(バージョン3.5と4)、Google Bard、Claudeという、LLMベースのシステムをいくつか使用しています。
患者固有の質問に対する5点類似尺度を用いて,各モデルが生成した回答の正確性,妥当性,包括性,コヒーレンスを評価した。
- 参考スコア(独自算出の注目度): 5.195779994399724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the use of artificial intelligence chatbots for
patient-specific question answering (QA) from clinical notes using several
large language model (LLM) based systems: ChatGPT (versions 3.5 and 4), Google
Bard, and Claude. We evaluate the accuracy, relevance, comprehensiveness, and
coherence of the answers generated by each model using a 5-point Likert scale
on a set of patient-specific questions.
- Abstract(参考訳): 本稿では,患者固有の質問応答(QA)に対する人工知能チャットボットの使用について,いくつかの大規模言語モデル(LLM)ベースのシステムであるChatGPT(バージョン3.5,4),Google Bard,Claudeを用いて検討する。
患者固有の質問に対する5点類似尺度を用いて,各モデルが生成した回答の正確性,妥当性,包括性,コヒーレンスを評価する。
関連論文リスト
- Towards Leveraging Large Language Models for Automated Medical Q&A Evaluation [2.7379431425414693]
本稿では,大規模言語モデル(LLM)を用いて,Q&Aシステムにおける応答評価を自動化する可能性について検討する。
論文 参考訳(メタデータ) (2024-09-03T14:38:29Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - K-QA: A Real-World Medical Q&A Benchmark [12.636564634626422]
K-QA(K-QA)は、K Health上での実際の会話から発せられる1,212の患者質問を含むデータセットである。
我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。
我々は、いくつかの最先端モデルと、コンテキスト内学習と医学指向の拡張検索スキームの効果を評価した。
論文 参考訳(メタデータ) (2024-01-25T20:11:04Z) - Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - A General-purpose AI Avatar in Healthcare [1.5081825869395544]
本稿では、医療におけるチャットボットの役割に焦点を当て、AIインタラクションをより患者にアピールするためのアバターの使用について検討する。
汎用AIアバターアプリケーションのフレームワークを3カテゴリのプロンプト辞書とプロンプト改善機構を用いて実証する。
2段階のアプローチでは、汎用AI言語モデルを微調整し、異なるAIアバターを作成して、ユーザと医療上の問題について議論することが提案されている。
論文 参考訳(メタデータ) (2024-01-10T03:44:15Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - Knowledge Grounded Conversational Symptom Detection with Graph Memory
Networks [5.788153402669881]
対話を通じて患者と対話し,臨床症状を自動的に検出し収集するシステムを構築した。
患者が診断のためのダイアログを開始するための明示的な症状のセットが与えられた場合、システムは質問によって暗黙の症状を収集するように訓練される。
各質問に対する患者からの回答を得た後、システムはまた、現在の情報が人間の医師が診断を行うのに十分であるかどうかを決定します。
論文 参考訳(メタデータ) (2021-01-24T18:50:16Z) - Where's the Question? A Multi-channel Deep Convolutional Neural Network
for Question Identification in Textual Data [83.89578557287658]
本稿では,実際の質問を分離する目的で,新しい多チャンネル深層畳み込みニューラルネットワークアーキテクチャであるQuest-CNNを提案する。
提案するニューラルネットワークと他のディープニューラルネットワークの総合的な性能比較分析を行った。
提案したQuest-CNNは、透析ケア設定におけるデータエントリレビュー対話のデータセットと一般的なドメインデータセットの両方において、最高のF1スコアを達成した。
論文 参考訳(メタデータ) (2020-10-15T15:11:22Z) - Investigation of Sentiment Controllable Chatbot [50.34061353512263]
本稿では,反応の感情をスケールまたは調整する4つのモデルについて検討する。
モデルはペルソナベースのモデル、強化学習、プラグアンドプレイモデル、CycleGANである。
入力に対して応答が妥当かどうかを推定するために,機械評価メトリクスを開発する。
論文 参考訳(メタデータ) (2020-07-11T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。