論文の概要: CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs
- arxiv url: http://arxiv.org/abs/2505.11413v1
- Date: Fri, 16 May 2025 16:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.579121
- Title: CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs
- Title(参考訳): CARES:医療用LLMの安全性と対人ロバスト性に関する総合評価
- Authors: Sijia Chen, Xiaomin Li, Mengxue Zhang, Eric Hanchen Jiang, Qingcheng Zeng, Chen-Hsiang Yu,
- Abstract要約: 医療における大規模言語モデル(LLM)の安全性を評価するためのベンチマークであるCARES(Clinical Adversarial Robustness and Evaluation of Safety)を紹介する。
CARESには、8つの医療安全原則にまたがる18,000以上のプロンプト、4つの有害レベル、4つのプロンプトスタイルがあり、悪意のあるユースケースと良心的なユースケースの両方をシミュレートしている。
我々の分析によると、多くの最先端のLSMは、有害なプロンプトを微妙に言い換えるジェイルブレイクに対して脆弱でありながら、安全で非典型的なクエリを過剰に再利用している。
- 参考スコア(独自算出の注目度): 7.597770587484936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in medical contexts, raising critical concerns about safety, alignment, and susceptibility to adversarial manipulation. While prior benchmarks assess model refusal capabilities for harmful prompts, they often lack clinical specificity, graded harmfulness levels, and coverage of jailbreak-style attacks. We introduce CARES (Clinical Adversarial Robustness and Evaluation of Safety), a benchmark for evaluating LLM safety in healthcare. CARES includes over 18,000 prompts spanning eight medical safety principles, four harm levels, and four prompting styles: direct, indirect, obfuscated, and role-play, to simulate both malicious and benign use cases. We propose a three-way response evaluation protocol (Accept, Caution, Refuse) and a fine-grained Safety Score metric to assess model behavior. Our analysis reveals that many state-of-the-art LLMs remain vulnerable to jailbreaks that subtly rephrase harmful prompts, while also over-refusing safe but atypically phrased queries. Finally, we propose a mitigation strategy using a lightweight classifier to detect jailbreak attempts and steer models toward safer behavior via reminder-based conditioning. CARES provides a rigorous framework for testing and improving medical LLM safety under adversarial and ambiguous conditions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療の文脈においてますます普及し、安全、アライメント、敵の操作に対する感受性に関する重要な懸念を提起している。
以前のベンチマークでは、有害なプロンプトに対するモデル拒絶能力を評価するが、臨床特異性、グレードされた有害度レベル、ジェイルブレイクスタイルの攻撃のカバレッジを欠いていることが多い。
医療におけるLCMの安全性を評価するためのベンチマークであるCARES(Clinical Adversarial Robustness and Evaluation of Safety)を紹介する。
CARESには、8つの医療安全原則にまたがる18,000以上のプロンプト、4つの有害レベル、および4つのプロンプトスタイル(直接、間接、難読化、ロールプレイ)が含まれており、悪意のあるユースケースと良心的なユースケースの両方をシミュレートしている。
モデル動作を評価するための三方向応答評価プロトコル(Accept,Caution,Refuse)ときめ細かいセーフティスコア尺度を提案する。
我々の分析によると、多くの最先端のLSMは、有害なプロンプトを微妙に言い換えるジェイルブレイクに対して脆弱でありながら、安全で非典型的なクエリを過剰に再利用している。
最後に,ジェイルブレイクを検知する軽量分類器を用いた緩和戦略を提案し,リマインダーベースのコンディショニングによる安全性向上に向けたモデルを提案する。
CARESは、敵対的および曖昧な条件下での医療LLM安全性のテストと改善のための厳格な枠組みを提供する。
関連論文リスト
- Phare: A Safety Probe for Large Language Models [0.0]
大規模言語モデル(LLM)の探索と評価を行うための診断フレームワークであるPhoreを紹介する。
本評価では, 筋力, 敏感性, ステレオタイプ再現など, あらゆる安全次元にまたがる系統的脆弱性のパターンを明らかにする。
Phareは研究者や実践者に、より堅牢で整合性があり、信頼できる言語システムを構築するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-16T15:31:08Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。