論文の概要: Challenges of GPT-3-based Conversational Agents for Healthcare
- arxiv url: http://arxiv.org/abs/2308.14641v2
- Date: Tue, 29 Aug 2023 15:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 10:55:47.615525
- Title: Challenges of GPT-3-based Conversational Agents for Healthcare
- Title(参考訳): GPT-3を用いた医療用会話エージェントの課題
- Authors: Fabian Lechner and Allison Lahnala and Charles Welch and Lucie Flek
- Abstract要約: 本稿では,GPT-3に基づく医療質問応答モデル(MedQA)の課題とリスクについて検討する。
MedQA システムにおける LLM の高リスク制約をストレステストするために,患者クエリを手動で設計する手法を提案する。
分析の結果、LSMはこれらのクエリに適切に対応できず、誤った医療情報、安全でないレコメンデーション、攻撃的と考えられるコンテンツを生成することがわかった。
- 参考スコア(独自算出の注目度): 11.517862889784293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The potential to provide patients with faster information access while
allowing medical specialists to concentrate on critical tasks makes medical
domain dialog agents appealing. However, the integration of large-language
models (LLMs) into these agents presents certain limitations that may result in
serious consequences. This paper investigates the challenges and risks of using
GPT-3-based models for medical question-answering (MedQA). We perform several
evaluations contextualized in terms of standard medical principles. We provide
a procedure for manually designing patient queries to stress-test high-risk
limitations of LLMs in MedQA systems. Our analysis reveals that LLMs fail to
respond adequately to these queries, generating erroneous medical information,
unsafe recommendations, and content that may be considered offensive.
- Abstract(参考訳): 医療専門家が重要なタスクに集中できる一方で、より高速な情報アクセスを提供する可能性は、医療ドメインのダイアログエージェントを魅力的にする。
しかし、これらのエージェントへの大規模言語モデル(LLM)の統合は、深刻な結果をもたらす可能性のあるある種の制限を示す。
本稿では,GPT-3に基づく医療質問応答モデル(MedQA)の課題とリスクについて検討する。
標準医療原則の観点からコンテキスト化されたいくつかの評価を行う。
MedQA システムにおける LLM の高リスク制約をストレステストするために,患者クエリを手動で設計する手法を提案する。
分析の結果、LSMはこれらのクエリに適切に対応できず、誤った医療情報、安全でないレコメンデーション、攻撃的と考えられるコンテンツを生成することがわかった。
関連論文リスト
- Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information
Seeking in Large Language Models [76.56588769677835]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。
医療診断、トラブルシューティング、そして'20 Questions'ゲームの実験において、UoTは57.8%の性能向上を達成している。
論文 参考訳(メタデータ) (2024-02-05T18:28:44Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - ChatFDA: Medical Records Risk Assessment [0.0]
本研究は,医療ノートから生じる潜在的なリスクを解消する上で,介護者を支援することで,この課題に対処するための先駆的アプリケーションについて検討する。
このアプリケーションは、オープンソースFDAのデータを活用して、処方薬に関するリアルタイムで実用的な洞察を提供する。
MIMIC-III citemimic datasetで行った予備的な分析は、医療ミスの低減と患者の安全性の増幅を強調した概念の証明を裏付けるものである。
論文 参考訳(メタデータ) (2023-12-20T03:40:45Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training
Regime and Better Alignment to Human Preferences [55.42521181558716]
中国医学領域向けに設計された新しいベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、コンテキスト長を4,096トークンに拡大し、事前トレーニング、SFT、RLHFを含む総合的なトレーニング体制を実行している。
情報抽出,質問応答,対話生成などの実世界のタスクの評価は,一般的なドメインLLMよりもChiMed-GPTの方が優れた性能を示している。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - BianQue: Balancing the Questioning and Suggestion Ability of Health LLMs
with Multi-turn Health Conversations Polished by ChatGPT [19.502907861059604]
大規模言語モデル(LLM)は、シングルターン会話において、一般的な、広範な健康提案を提供する上で、うまく機能している。
自己構築型健康会話データセットであるBianQueCorpusを微調整したChatGLMベースのLLMであるBianQueを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:57:34Z) - Integrating UMLS Knowledge into Large Language Models for Medical
Question Answering [18.06960842747575]
大規模言語モデル(LLM)は強力なテキスト生成能力を示し、医療分野に前例のない革新をもたらした。
我々は、医療コミュニティにより良いサービスを提供することを目的として、UMLS(Unified Medical Language System)に基づく拡張LLMフレームワークを開発する。
ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。
論文 参考訳(メタデータ) (2023-10-04T12:50:26Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews [21.546144601311187]
大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。
LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
論文 参考訳(メタデータ) (2023-05-19T17:09:19Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。