Fugu-MT 論文翻訳(概要): Challenges of GPT-3-based Conversational Agents for Healthcare

論文の概要: Challenges of GPT-3-based Conversational Agents for Healthcare

arxiv url: http://arxiv.org/abs/2308.14641v2
Date: Tue, 29 Aug 2023 15:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-30 10:55:47.615525
Title: Challenges of GPT-3-based Conversational Agents for Healthcare
Title（参考訳）: GPT-3を用いた医療用会話エージェントの課題
Authors: Fabian Lechner and Allison Lahnala and Charles Welch and Lucie Flek
Abstract要約: 本稿では,GPT-3に基づく医療質問応答モデル(MedQA)の課題とリスクについて検討する。 MedQA システムにおける LLM の高リスク制約をストレステストするために,患者クエリを手動で設計する手法を提案する。分析の結果、LSMはこれらのクエリに適切に対応できず、誤った医療情報、安全でないレコメンデーション、攻撃的と考えられるコンテンツを生成することがわかった。
参考スコア（独自算出の注目度）: 11.517862889784293
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The potential to provide patients with faster information access while allowing medical specialists to concentrate on critical tasks makes medical domain dialog agents appealing. However, the integration of large-language models (LLMs) into these agents presents certain limitations that may result in serious consequences. This paper investigates the challenges and risks of using GPT-3-based models for medical question-answering (MedQA). We perform several evaluations contextualized in terms of standard medical principles. We provide a procedure for manually designing patient queries to stress-test high-risk limitations of LLMs in MedQA systems. Our analysis reveals that LLMs fail to respond adequately to these queries, generating erroneous medical information, unsafe recommendations, and content that may be considered offensive.
Abstract（参考訳）: 医療専門家が重要なタスクに集中できる一方で、より高速な情報アクセスを提供する可能性は、医療ドメインのダイアログエージェントを魅力的にする。しかし、これらのエージェントへの大規模言語モデル(LLM)の統合は、深刻な結果をもたらす可能性のあるある種の制限を示す。本稿では,GPT-3に基づく医療質問応答モデル(MedQA)の課題とリスクについて検討する。標準医療原則の観点からコンテキスト化されたいくつかの評価を行う。 MedQA システムにおける LLM の高リスク制約をストレステストするために,患者クエリを手動で設計する手法を提案する。分析の結果、LSMはこれらのクエリに適切に対応できず、誤った医療情報、安全でないレコメンデーション、攻撃的と考えられるコンテンツを生成することがわかった。

関連論文リスト

Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [51.73411055162861]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文参考訳（メタデータ） (2025-07-09T19:38:58Z)
LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [38.02853540388593]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。 LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文参考訳（メタデータ） (2025-06-04T15:43:14Z)
GAP: Graph-Assisted Prompts for Dialogue-based Medication Recommendation [16.144875467144917]
対話型医薬品推薦のための textbfGAP フレームワークを提案する。対話から医療概念と対応する状態を抽出し、明示的に患者中心のグラフを構築する。豊富なクエリやプロンプトを生成し、複数のソースから情報を取得して、非現実的なレスポンスを減らすことができる。
論文参考訳（メタデータ） (2025-05-19T09:18:19Z)
Cancer-Myth: Evaluating AI Chatbot on Patient Questions with False Presuppositions [16.21971764311474]
実際の患者から得られた癌関連質問に対して,大言語モデル(LLMs)を評価した。 LLMは、しばしば質問における偽の前提を認識または対処するのに失敗する。以上の結果から,LSMの臨床的信頼性に重大なギャップがあることが示唆された。
論文参考訳（メタデータ） (2025-04-15T16:37:32Z)
TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。 TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文参考訳（メタデータ） (2025-03-26T15:58:16Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
MeDiSumQA: Patient-Oriented Question-Answer Generation from Discharge Letters [1.6135243915480502]
大規模言語モデル(LLM)は、医療情報を単純化してソリューションを提供する。安全で患者に優しいテキスト生成のためのLCMの評価は、標準化された評価リソースが欠如しているため困難である。 MeDiSumQAはMIMIC-IV放電サマリーから自動パイプラインを通じて生成されたデータセットである。
論文参考訳（メタデータ） (2025-02-05T15:56:37Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-08-22T17:44:40Z)
Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up Questions [42.73799041840482]
i-MedRAGは、過去の情報検索の試みに基づいてフォローアップクエリを反復的に要求するシステムである。ゼロショットのi-MedRAGは、GPT-3.5上で既存のプロンプトエンジニアリングと微調整の方法をすべて上回ります。 i-MedRAGは、順応的にフォローアップクエリを問い合わせて推論チェーンを形成し、医学的な質問の詳細な分析を提供する。
論文参考訳（メタデータ） (2024-08-01T17:18:17Z)
Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain [21.96129653695565]
LLM(Large Language Models)は、医学的意思決定タスクにおいて医師を支援し、修正することができる。我々は,メディトロン,Llama2,MistralなどいくつかのLSMを評価し,これらのモデルが様々なシナリオで医師と効果的に相互作用する能力について分析した。
論文参考訳（メタデータ） (2024-03-29T16:59:13Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
ChatFDA: Medical Records Risk Assessment [0.0]
本研究は,医療ノートから生じる潜在的なリスクを解消する上で,介護者を支援することで,この課題に対処するための先駆的アプリケーションについて検討する。このアプリケーションは、オープンソースFDAのデータを活用して、処方薬に関するリアルタイムで実用的な洞察を提供する。 MIMIC-III citemimic datasetで行った予備的な分析は、医療ミスの低減と患者の安全性の増幅を強調した概念の証明を裏付けるものである。
論文参考訳（メタデータ） (2023-12-20T03:40:45Z)
ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。 ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文参考訳（メタデータ） (2023-11-10T12:25:32Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Appraising the Potential Uses and Harms of LLMs for Medical Systematic Reviews [21.546144601311187]
大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。 LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
論文参考訳（メタデータ） (2023-05-19T17:09:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。