論文の概要: Enhancing the Safety of Medical Vision-Language Models by Synthetic Demonstrations
- arxiv url: http://arxiv.org/abs/2506.09067v1
- Date: Sun, 08 Jun 2025 16:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.625168
- Title: Enhancing the Safety of Medical Vision-Language Models by Synthetic Demonstrations
- Title(参考訳): 医用ビジョンランゲージモデルの安全性向上 : 合成デモによる検討
- Authors: Zhiyu Xue, Reza Abbasi-Asl, Ramtin Pedarsani,
- Abstract要約: 有害なクエリを緩和する新しい推論時防衛戦略を提案する。
我々の戦略は、性能を著しく損なうことなく、モデルの安全性を高めることを示す。
次に、セキュリティとパフォーマンスのバランスをとるためのトレードオフソリューションとして、混在するデモ戦略を紹介します。
- 参考スコア(独自算出の注目度): 13.977100716044104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative medical vision-language models~(Med-VLMs) are primarily designed to generate complex textual information~(e.g., diagnostic reports) from multimodal inputs including vision modality~(e.g., medical images) and language modality~(e.g., clinical queries). However, their security vulnerabilities remain underexplored. Med-VLMs should be capable of rejecting harmful queries, such as \textit{Provide detailed instructions for using this CT scan for insurance fraud}. At the same time, addressing security concerns introduces the risk of over-defense, where safety-enhancing mechanisms may degrade general performance, causing Med-VLMs to reject benign clinical queries. In this paper, we propose a novel inference-time defense strategy to mitigate harmful queries, enabling defense against visual and textual jailbreak attacks. Using diverse medical imaging datasets collected from nine modalities, we demonstrate that our defense strategy based on synthetic clinical demonstrations enhances model safety without significantly compromising performance. Additionally, we find that increasing the demonstration budget alleviates the over-defense issue. We then introduce a mixed demonstration strategy as a trade-off solution for balancing security and performance under few-shot demonstration budget constraints.
- Abstract(参考訳): 生成医療ビジョン言語モデル~(Med-VLM)は主に、視覚モダリティ~(eg、医療画像)や言語モダリティ~(eg、臨床クエリー)を含むマルチモーダル入力から複雑なテキスト情報~(eg、診断レポート)を生成するように設計されている。
しかし、セキュリティ上の脆弱性は未発見のままである。
Med-VLMは、保険詐欺にこのCTスキャンを使用するための詳細な指示として、‘textit{Provide details instructions for use this CT scan for insurance fraud} など、有害なクエリを拒否する能力を持つべきである。
同時に、セキュリティ上の懸念に対処することで、安全性向上メカニズムが一般的なパフォーマンスを低下させ、Med-VLMが良質な臨床クエリを拒否するリスクが生じる。
本稿では,有害なクエリを軽減し,視覚的およびテキスト的ジェイルブレイク攻撃に対する防御を可能にする,新しい推論時防御戦略を提案する。
9つのモダリティから収集した多種多様な医用画像データセットを用いて, 総合的な臨床実験に基づく防衛戦略が, 性能を著しく損なうことなく, モデル安全性を高めることを実証した。
さらに,実証予算の増大は,過防衛問題を軽減することが判明した。
次に、数ショットのデモ予算制約の下で、セキュリティとパフォーマンスのバランスをとるためのトレードオフソリューションとして、混在するデモ戦略を紹介します。
関連論文リスト
- CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs [7.597770587484936]
医療における大規模言語モデル(LLM)の安全性を評価するためのベンチマークであるCARES(Clinical Adversarial Robustness and Evaluation of Safety)を紹介する。
CARESには、8つの医療安全原則にまたがる18,000以上のプロンプト、4つの有害レベル、4つのプロンプトスタイルがあり、悪意のあるユースケースと良心的なユースケースの両方をシミュレートしている。
我々の分析によると、多くの最先端のLSMは、有害なプロンプトを微妙に言い換えるジェイルブレイクに対して脆弱でありながら、安全で非典型的なクエリを過剰に再利用している。
論文 参考訳(メタデータ) (2025-05-16T16:25:51Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety [296.5392512998251]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare [15.438265972219869]
大規模言語モデル(LLM)は、医療アプリケーションでますます活用されている。
本研究は、7個のLDMの脆弱性を3つの高度なブラックボックスジェイルブレイク技術に系統的に評価する。
論文 参考訳(メタデータ) (2025-01-27T22:07:52Z) - Prompt Injection Attacks on Large Language Models in Oncology [1.6631057801468496]
ヴィジュアル言語人工知能モデル(VLM)は医療知識を持ち、様々な方法で医療に応用することができる。
これらのモデルはインジェクション攻撃によって攻撃され、VLMと相互作用することで有害な情報を出力することができる。
医用画像データにサブビジュアルプロンプトを埋め込むことで, 有害な出力が得られることを示す。
論文 参考訳(メタデータ) (2024-07-23T15:29:57Z) - Adversarial Attacks on Large Language Models in Medicine [34.17895005922139]
医療アプリケーションへの大型言語モデルの統合により、医療診断、治療勧告、患者医療の進歩が期待できる。
LLMの敵対的攻撃に対する感受性は重大な脅威となり、繊細な医学的文脈で有害な結果をもたらす可能性がある。
本研究では,3つの医療課題における2種類の敵攻撃に対するLDMの脆弱性について検討した。
論文 参考訳(メタデータ) (2024-06-18T04:24:30Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models [9.860799633304298]
本稿では,MedMLLMの未発見の脆弱性について述べる。
既往の医療データと非典型的自然現象を組み合わせることで、不正な悪意のある攻撃を定義する。
本稿では,MedMLLM の攻撃成功率を大幅に向上させる MCM 最適化手法を提案する。
論文 参考訳(メタデータ) (2024-05-26T19:11:21Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。