論文の概要: The Forgotten Shield: Safety Grafting in Parameter-Space for Medical MLLMs
- arxiv url: http://arxiv.org/abs/2601.04199v1
- Date: Fri, 05 Dec 2025 06:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.595647
- Title: The Forgotten Shield: Safety Grafting in Parameter-Space for Medical MLLMs
- Title(参考訳): 医療用MLLMのパラメータ空間における安全グラフト
- Authors: Jiale Zhao, Xing Mou, Jinlin Wu, Hongyuan Yu, Mingrui Sun, Yang Shi, Xuanwu Yin, Zhen Chen, Zhen Lei, Yaohua Wang,
- Abstract要約: 医療マルチモーダル大言語モデル(Medical MLLMs)は、専門的な医療タスクにおいて顕著な進歩を遂げている。
しかし、彼らの安全性の研究は遅れており、現実の展開に潜在的なリスクを生じさせている。
我々はまず,現在のSOTA医療MLLMの安全性を体系的にベンチマークする多次元評価フレームワークを構築した。
- 参考スコア(独自算出の注目度): 23.79442915729949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Multimodal Large Language Models (Medical MLLMs) have achieved remarkable progress in specialized medical tasks; however, research into their safety has lagged, posing potential risks for real-world deployment. In this paper, we first establish a multidimensional evaluation framework to systematically benchmark the safety of current SOTA Medical MLLMs. Our empirical analysis reveals pervasive vulnerabilities across both general and medical-specific safety dimensions in existing models, particularly highlighting their fragility against cross-modality jailbreak attacks. Furthermore, we find that the medical fine-tuning process frequently induces catastrophic forgetting of the model's original safety alignment. To address this challenge, we propose a novel "Parameter-Space Intervention" approach for efficient safety re-alignment. This method extracts intrinsic safety knowledge representations from original base models and concurrently injects them into the target model during the construction of medical capabilities. Additionally, we design a fine-grained parameter search algorithm to achieve an optimal trade-off between safety and medical performance. Experimental results demonstrate that our approach significantly bolsters the safety guardrails of Medical MLLMs without relying on additional domain-specific safety data, while minimizing degradation to core medical performance.
- Abstract(参考訳): 医療マルチモーダル大規模言語モデル (Medical MLLMs) は、専門的な医療タスクにおいて顕著な進歩を遂げているが、その安全性の研究は遅れ、現実の展開に潜在的なリスクを生じさせている。
本稿ではまず,現在のSOTA医療MLLMの安全性を体系的に評価する多次元評価フレームワークを確立する。
私たちの経験的分析は、既存のモデルにおける一般および医療特有の安全性の両面において、広範囲にわたる脆弱性を明らかにし、特に、モダリティを越えたジェイルブレイク攻撃に対する脆弱さを強調しています。
さらに、医療的な微調整プロセスは、しばしばモデル本来の安全アライメントの破滅的な忘れを招きかねないことが判明した。
この課題に対処するために, 安全性を向上するための新しい「パラメータ空間干渉」手法を提案する。
本手法は,原ベースモデルから本質的な安全知識表現を抽出し,医療能力構築時に対象モデルに同時に注入する。
さらに,安全性と医療性能の最適なトレードオフを実現するために,詳細なパラメータ探索アルゴリズムを設計する。
実験の結果,本手法は,医療用MLLMの安全ガードレールをドメイン固有の安全データに頼らずに大幅に強化し,中核医療性能の劣化を最小限に抑えていることが示された。
関連論文リスト
- Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - Enhancing the Safety of Medical Vision-Language Models by Synthetic Demonstrations [13.977100716044104]
有害なクエリを緩和する新しい推論時防衛戦略を提案する。
我々の戦略は、性能を著しく損なうことなく、モデルの安全性を高めることを示す。
次に、セキュリティとパフォーマンスのバランスをとるためのトレードオフソリューションとして、混在するデモ戦略を紹介します。
論文 参考訳(メタデータ) (2025-06-08T16:26:51Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare [15.438265972219869]
大規模言語モデル(LLM)は、医療アプリケーションでますます活用されている。
本研究は、7個のLDMの脆弱性を3つの高度なブラックボックスジェイルブレイク技術に系統的に評価する。
論文 参考訳(メタデータ) (2025-01-27T22:07:52Z) - Adversarial Attacks on Large Language Models in Medicine [34.17895005922139]
医療アプリケーションへの大型言語モデルの統合により、医療診断、治療勧告、患者医療の進歩が期待できる。
LLMの敵対的攻撃に対する感受性は重大な脅威となり、繊細な医学的文脈で有害な結果をもたらす可能性がある。
本研究では,3つの医療課題における2種類の敵攻撃に対するLDMの脆弱性について検討した。
論文 参考訳(メタデータ) (2024-06-18T04:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。