Fugu-MT 論文翻訳(概要): Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings

論文の概要: Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings

arxiv url: http://arxiv.org/abs/2507.07248v1
Date: Wed, 09 Jul 2025 19:38:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 16:40:15.188812
Title: Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings
Title（参考訳）: 言語モデルの医療的再チーム化プロトコル:医療設定におけるユーザ視点の重要性について
Authors: Minseon Kim, Jean-Philippe Corbeil, Alessandro Sordoni, Francois Beaulieu, Paul Vozila,
Abstract要約: 本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
参考スコア（独自算出の注目度）: 51.73411055162861
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the performance of large language models (LLMs) continues to advance, their adoption is expanding across a wide range of domains, including the medical field. The integration of LLMs into medical applications raises critical safety concerns, particularly due to their use by users with diverse roles, e.g. patients and clinicians, and the potential for model's outputs to directly affect human health. Despite the domain-specific capabilities of medical LLMs, prior safety evaluations have largely focused only on general safety benchmarks. In this paper, we introduce a safety evaluation protocol tailored to the medical domain in both patient user and clinician user perspectives, alongside general safety assessments and quantitatively analyze the safety of medical LLMs. We bridge a gap in the literature by building the PatientSafetyBench containing 466 samples over 5 critical categories to measure safety from the perspective of the patient. We apply our red-teaming protocols on the MediPhi model collection as a case study. To our knowledge, this is the first work to define safety evaluation criteria for medical LLMs through targeted red-teaming taking three different points of view - patient, clinician, and general user - establishing a foundation for safer deployment in medical domains.
Abstract（参考訳）: 大規模言語モデル(LLM)の性能が向上し続けており、医療分野を含む幅広い領域で採用が拡大している。 LLMの医療応用への統合は、特に様々な役割を持つユーザ、例えば患者や臨床医が使用することや、モデルの出力が人間の健康に直接影響を与える可能性があることによる、重要な安全上の懸念を提起する。医療用LLMのドメイン固有の機能にもかかわらず、事前の安全性評価は一般的な安全性ベンチマークにのみ焦点が当てられている。本稿では,医療用LLMの安全性を定量的に分析するとともに,一般安全評価とともに,患者と臨床利用者の両方の観点から医療領域に適した安全評価プロトコルを提案する。文献のギャップを埋めるために,患者セーフティベンチを5つの重要なカテゴリに分けて466個のサンプルを含む患者セーフティベンチを構築した。ケーススタディとして、MedPhiモデルコレクションに赤チームプロトコルを適用します。本研究は, 患者, 臨床医, 一般ユーザという3つの異なる視点から, 医療用LLMの安全性評価基準を策定し, 医療用LLMの安全性評価基準を策定する最初の試みである。

関連論文リスト

LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [38.02853540388593]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。 LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文参考訳（メタデータ） (2025-06-04T15:43:14Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Ensuring Safety and Trust: Analyzing the Risks of Large Language Models in Medicine [41.71754418349046]
安全で信頼性の高い医療AIのための5つの重要な原則と10の特定の側面を提案します。この包括的枠組みの下では、1000人の専門家に検証された質問を伴う新しいMedGuardベンチマークを導入する。 11個の LLM の評価結果から,現行の言語モデルは安全アライメント機構によらず,ベンチマークのほとんどにおいて性能が劣っていることが示唆された。この研究は、人間の監視の必要性とAI安全ガードレールの実装を浮き彫りにして、重大な安全性のギャップを浮き彫りにした。
論文参考訳（メタデータ） (2024-11-20T06:34:32Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文参考訳（メタデータ） (2024-10-24T15:41:56Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-25T06:17:54Z)
Polaris: A Safety-focused LLM Constellation Architecture for Healthcare [17.074456639617996]
Polarisは、リアルタイムの患者とAIの医療会話のための、安全に焦点を当てた初めてのLLMコンステレーションだ。当社のモデルは、プロプライエタリなデータ、臨床ケア計画、医療規制文書、医療マニュアル、その他の医学推論文書に基づいてトレーニングします。我々は、このシステムのエンドツーエンドの会話評価を行うために、1100人以上の米国免許看護師と130人以上の米国医師を募集した。
論文参考訳（メタデータ） (2024-03-20T05:34:03Z)
MedSafetyBench: Evaluating and Improving the Medical Safety of Large Language Models [32.35118292932457]
まず,米国医学会の医療倫理原則に基づいて,大規模言語モデル(LLM)における医療安全の概念を定義した。次に、この理解を活用して、LSMの医療安全を測定するために設計された最初のベンチマークデータセットであるMedSafetyBenchを導入します。以上の結果から,医療用LLMは医療安全基準に適合せず,MedSafetyBenchを用いた微調整により医療安全を向上し,医療性能の維持が図られている。
論文参考訳（メタデータ） (2024-03-06T14:34:07Z)
A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。 3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。