論文の概要: Challenges of GPT-3-based Conversational Agents for Healthcare
- arxiv url: http://arxiv.org/abs/2308.14641v2
- Date: Tue, 29 Aug 2023 15:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 10:55:47.615525
- Title: Challenges of GPT-3-based Conversational Agents for Healthcare
- Title(参考訳): GPT-3を用いた医療用会話エージェントの課題
- Authors: Fabian Lechner and Allison Lahnala and Charles Welch and Lucie Flek
- Abstract要約: 本稿では,GPT-3に基づく医療質問応答モデル(MedQA)の課題とリスクについて検討する。
MedQA システムにおける LLM の高リスク制約をストレステストするために,患者クエリを手動で設計する手法を提案する。
分析の結果、LSMはこれらのクエリに適切に対応できず、誤った医療情報、安全でないレコメンデーション、攻撃的と考えられるコンテンツを生成することがわかった。
- 参考スコア(独自算出の注目度): 11.517862889784293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The potential to provide patients with faster information access while
allowing medical specialists to concentrate on critical tasks makes medical
domain dialog agents appealing. However, the integration of large-language
models (LLMs) into these agents presents certain limitations that may result in
serious consequences. This paper investigates the challenges and risks of using
GPT-3-based models for medical question-answering (MedQA). We perform several
evaluations contextualized in terms of standard medical principles. We provide
a procedure for manually designing patient queries to stress-test high-risk
limitations of LLMs in MedQA systems. Our analysis reveals that LLMs fail to
respond adequately to these queries, generating erroneous medical information,
unsafe recommendations, and content that may be considered offensive.
- Abstract(参考訳): 医療専門家が重要なタスクに集中できる一方で、より高速な情報アクセスを提供する可能性は、医療ドメインのダイアログエージェントを魅力的にする。
しかし、これらのエージェントへの大規模言語モデル(LLM)の統合は、深刻な結果をもたらす可能性のあるある種の制限を示す。
本稿では,GPT-3に基づく医療質問応答モデル(MedQA)の課題とリスクについて検討する。
標準医療原則の観点からコンテキスト化されたいくつかの評価を行う。
MedQA システムにおける LLM の高リスク制約をストレステストするために,患者クエリを手動で設計する手法を提案する。
分析の結果、LSMはこれらのクエリに適切に対応できず、誤った医療情報、安全でないレコメンデーション、攻撃的と考えられるコンテンツを生成することがわかった。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up Questions [42.73799041840482]
i-MedRAGは、過去の情報検索の試みに基づいてフォローアップクエリを反復的に要求するシステムである。
ゼロショットのi-MedRAGは、GPT-3.5上で既存のプロンプトエンジニアリングと微調整の方法をすべて上回ります。
i-MedRAGは、順応的にフォローアップクエリを問い合わせて推論チェーンを形成し、医学的な質問の詳細な分析を提供する。
論文 参考訳(メタデータ) (2024-08-01T17:18:17Z) - Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain [21.96129653695565]
LLM(Large Language Models)は、医学的意思決定タスクにおいて医師を支援し、修正することができる。
我々は,メディトロン,Llama2,MistralなどいくつかのLSMを評価し,これらのモデルが様々なシナリオで医師と効果的に相互作用する能力について分析した。
論文 参考訳(メタデータ) (2024-03-29T16:59:13Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - ChatFDA: Medical Records Risk Assessment [0.0]
本研究は,医療ノートから生じる潜在的なリスクを解消する上で,介護者を支援することで,この課題に対処するための先駆的アプリケーションについて検討する。
このアプリケーションは、オープンソースFDAのデータを活用して、処方薬に関するリアルタイムで実用的な洞察を提供する。
MIMIC-III citemimic datasetで行った予備的な分析は、医療ミスの低減と患者の安全性の増幅を強調した概念の証明を裏付けるものである。
論文 参考訳(メタデータ) (2023-12-20T03:40:45Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews [21.546144601311187]
大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。
LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
論文 参考訳(メタデータ) (2023-05-19T17:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。