論文の概要: Black-Box Behavioral Distillation Breaks Safety Alignment in Medical LLMs
- arxiv url: http://arxiv.org/abs/2512.09403v1
- Date: Wed, 10 Dec 2025 07:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.441386
- Title: Black-Box Behavioral Distillation Breaks Safety Alignment in Medical LLMs
- Title(参考訳): 医療用LLMの安全アライメントを損なうブラックボックスの挙動蒸留
- Authors: Sohely Jahan, Ruimin Sun,
- Abstract要約: 安全に配慮した医療用LLMのドメイン特異的推論を再現するブラックボックス蒸留攻撃を提案する。
LLaMA3 8Bをゼロアライメント監視設定で微調整し、モデルウェイトや安全フィルタ、トレーニングデータへのアクセスを必要としない。
12ドルの費用で、サロゲートは良心的な入力に対して強い忠実性を達成し、敵のプロンプトの86%で安全でない完了を発生させる。
- 参考スコア(独自算出の注目度): 4.357945243163354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As medical large language models (LLMs) become increasingly integrated into clinical workflows, concerns around alignment robustness, and safety are escalating. Prior work on model extraction has focused on classification models or memorization leakage, leaving the vulnerability of safety-aligned generative medical LLMs underexplored. We present a black-box distillation attack that replicates the domain-specific reasoning of safety-aligned medical LLMs using only output-level access. By issuing 48,000 instruction queries to Meditron-7B and collecting 25,000 benign instruction response pairs, we fine-tune a LLaMA3 8B surrogate via parameter efficient LoRA under a zero-alignment supervision setting, requiring no access to model weights, safety filters, or training data. With a cost of $12, the surrogate achieves strong fidelity on benign inputs while producing unsafe completions for 86% of adversarial prompts, far exceeding both Meditron-7B (66%) and the untuned base model (46%). This reveals a pronounced functional-ethical gap, task utility transfers, while alignment collapses. To analyze this collapse, we develop a dynamic adversarial evaluation framework combining Generative Query (GQ)-based harmful prompt generation, verifier filtering, category-wise failure analysis, and adaptive Random Search (RS) jailbreak attacks. We also propose a layered defense system, as a prototype detector for real-time alignment drift in black-box deployments. Our findings show that benign-only black-box distillation exposes a practical and under-recognized threat: adversaries can cheaply replicate medical LLM capabilities while stripping safety mechanisms, underscoring the need for extraction-aware safety monitoring.
- Abstract(参考訳): 医療用大言語モデル(LLM)が臨床ワークフローに統合されるにつれ、アライメントの堅牢性や安全性に関する懸念が高まっている。
モデル抽出に関する以前の研究は、分類モデルや記憶漏洩に重点を置いており、安全に整合した生成医療用LLMの脆弱性を未発見のまま残している。
出力レベルアクセスのみを用いて安全性に配慮した医療用LLMのドメイン固有の推論を再現するブラックボックス蒸留攻撃を提案する。
48,000の命令クエリをMeditron-7Bに発行し、25,000の良性命令応答ペアを収集することにより、パラメータ効率の高いLoRAを介してLLaMA3 8Bサロゲートを微調整し、モデルの重み付けや安全フィルタ、トレーニングデータへのアクセスを必要としないようにした。
12ドルの費用で、サロゲートは良心的な入力に対して強い忠実性を達成し、敵のプロンプトの86%で安全でない完了を実現し、メディトロン-7B(66%)と未修正ベースモデル(46%)をはるかに上回っている。
これにより、機能的倫理的ギャップ、タスクユーティリティ転送、アライメントの崩壊が明らかになる。
この崩壊を解析するために、生成クエリ(GQ)に基づく有害なプロンプト生成、検証器フィルタリング、カテゴリワイド障害解析、適応ランダム検索(RS)ジェイルブレイク攻撃を組み合わせた動的敵評価フレームワークを開発した。
また,ブラックボックス配置におけるリアルタイムアライメントドリフトのための試作検出器として,層状防御システムを提案する。
敵は安全機構を除去しながら医療用LLM機能を安価に複製し, 抽出・認識型安全監視の必要性を強調できる。
関連論文リスト
- Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment [4.379304291229695]
LLM攻撃技術を応用したトレーニングフリーでモデルに依存しないフレームワークであるRefusal-Aware Adaptive Injection (RAAI)を紹介する。
RAAIは内部の拒絶信号を検出し、事前に定義されたフレーズを適応的に注入することで、有害で流用な完了を誘導する。
実験の結果,RAAIはLDMを効果的に脱獄させ,平均で2.15%から61.04%までの有害反応率を増加させた。
論文 参考訳(メタデータ) (2025-06-07T08:19:01Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs [7.597770587484936]
医療における大規模言語モデル(LLM)の安全性を評価するためのベンチマークであるCARES(Clinical Adversarial Robustness and Evaluation of Safety)を紹介する。
CARESには、8つの医療安全原則にまたがる18,000以上のプロンプト、4つの有害レベル、4つのプロンプトスタイルがあり、悪意のあるユースケースと良心的なユースケースの両方をシミュレートしている。
我々の分析によると、多くの最先端のLSMは、有害なプロンプトを微妙に言い換えるジェイルブレイクに対して脆弱でありながら、安全で非典型的なクエリを過剰に再利用している。
論文 参考訳(メタデータ) (2025-05-16T16:25:51Z) - Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking [14.541887120849687]
緊急エンジニアリングによる ジェイルブレイク攻撃は 重大な脅威になっています
本研究では,防衛閾値決定(DTD)の概念を導入し,LCMの良質な世代による潜在的安全性への影響を明らかにした。
本稿では,悪質な意図とは逆の意味の良質なインプットを構築するために,「セマンティック・リバーサル」戦略を用いたSugar-Coated Poison攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-08T03:57:09Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。