論文の概要: The Forgotten Shield: Safety Grafting in Parameter-Space for Medical MLLMs
- arxiv url: http://arxiv.org/abs/2601.04199v1
- Date: Fri, 05 Dec 2025 06:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.595647
- Title: The Forgotten Shield: Safety Grafting in Parameter-Space for Medical MLLMs
- Title(参考訳): 医療用MLLMのパラメータ空間における安全グラフト
- Authors: Jiale Zhao, Xing Mou, Jinlin Wu, Hongyuan Yu, Mingrui Sun, Yang Shi, Xuanwu Yin, Zhen Chen, Zhen Lei, Yaohua Wang,
- Abstract要約: 医療マルチモーダル大言語モデル(Medical MLLMs)は、専門的な医療タスクにおいて顕著な進歩を遂げている。
しかし、彼らの安全性の研究は遅れており、現実の展開に潜在的なリスクを生じさせている。
我々はまず,現在のSOTA医療MLLMの安全性を体系的にベンチマークする多次元評価フレームワークを構築した。
- 参考スコア(独自算出の注目度): 23.79442915729949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Multimodal Large Language Models (Medical MLLMs) have achieved remarkable progress in specialized medical tasks; however, research into their safety has lagged, posing potential risks for real-world deployment. In this paper, we first establish a multidimensional evaluation framework to systematically benchmark the safety of current SOTA Medical MLLMs. Our empirical analysis reveals pervasive vulnerabilities across both general and medical-specific safety dimensions in existing models, particularly highlighting their fragility against cross-modality jailbreak attacks. Furthermore, we find that the medical fine-tuning process frequently induces catastrophic forgetting of the model's original safety alignment. To address this challenge, we propose a novel "Parameter-Space Intervention" approach for efficient safety re-alignment. This method extracts intrinsic safety knowledge representations from original base models and concurrently injects them into the target model during the construction of medical capabilities. Additionally, we design a fine-grained parameter search algorithm to achieve an optimal trade-off between safety and medical performance. Experimental results demonstrate that our approach significantly bolsters the safety guardrails of Medical MLLMs without relying on additional domain-specific safety data, while minimizing degradation to core medical performance.
- Abstract(参考訳): 医療マルチモーダル大規模言語モデル (Medical MLLMs) は、専門的な医療タスクにおいて顕著な進歩を遂げているが、その安全性の研究は遅れ、現実の展開に潜在的なリスクを生じさせている。
本稿ではまず,現在のSOTA医療MLLMの安全性を体系的に評価する多次元評価フレームワークを確立する。
私たちの経験的分析は、既存のモデルにおける一般および医療特有の安全性の両面において、広範囲にわたる脆弱性を明らかにし、特に、モダリティを越えたジェイルブレイク攻撃に対する脆弱さを強調しています。
さらに、医療的な微調整プロセスは、しばしばモデル本来の安全アライメントの破滅的な忘れを招きかねないことが判明した。
この課題に対処するために, 安全性を向上するための新しい「パラメータ空間干渉」手法を提案する。
本手法は,原ベースモデルから本質的な安全知識表現を抽出し,医療能力構築時に対象モデルに同時に注入する。
さらに,安全性と医療性能の最適なトレードオフを実現するために,詳細なパラメータ探索アルゴリズムを設計する。
実験の結果,本手法は,医療用MLLMの安全ガードレールをドメイン固有の安全データに頼らずに大幅に強化し,中核医療性能の劣化を最小限に抑えていることが示された。
関連論文リスト
- SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.43113804188195]
安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。
SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
論文 参考訳(メタデータ) (2026-03-02T08:16:04Z) - A Practical Framework for Evaluating Medical AI Security: Reproducible Assessment of Jailbreaking and Privacy Vulnerabilities Across Clinical Specialties [11.500745861209774]
医学大言語モデル (LLMs) は、様々な専門分野にまたがる臨床上の意思決定支援のために、ますます普及している。
既存のセキュリティベンチマークでは、GPUクラスタ、商用APIアクセス、保護されたヘルスデータが必要になる。
本稿では,現実的な資源制約下での医療AIセキュリティを評価するための,実用的で完全に再現可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T02:28:15Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - Enhancing the Safety of Medical Vision-Language Models by Synthetic Demonstrations [13.977100716044104]
有害なクエリを緩和する新しい推論時防衛戦略を提案する。
我々の戦略は、性能を著しく損なうことなく、モデルの安全性を高めることを示す。
次に、セキュリティとパフォーマンスのバランスをとるためのトレードオフソリューションとして、混在するデモ戦略を紹介します。
論文 参考訳(メタデータ) (2025-06-08T16:26:51Z) - Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。
我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。
トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文 参考訳(メタデータ) (2025-06-06T18:05:45Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare [15.438265972219869]
大規模言語モデル(LLM)は、医療アプリケーションでますます活用されている。
本研究は、7個のLDMの脆弱性を3つの高度なブラックボックスジェイルブレイク技術に系統的に評価する。
論文 参考訳(メタデータ) (2025-01-27T22:07:52Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Adversarial Attacks on Large Language Models in Medicine [34.17895005922139]
医療アプリケーションへの大型言語モデルの統合により、医療診断、治療勧告、患者医療の進歩が期待できる。
LLMの敵対的攻撃に対する感受性は重大な脅威となり、繊細な医学的文脈で有害な結果をもたらす可能性がある。
本研究では,3つの医療課題における2種類の敵攻撃に対するLDMの脆弱性について検討した。
論文 参考訳(メタデータ) (2024-06-18T04:24:30Z) - Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models [9.860799633304298]
本稿では,MedMLLMの未発見の脆弱性について述べる。
既往の医療データと非典型的自然現象を組み合わせることで、不正な悪意のある攻撃を定義する。
本稿では,MedMLLM の攻撃成功率を大幅に向上させる MCM 最適化手法を提案する。
論文 参考訳(メタデータ) (2024-05-26T19:11:21Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。