論文の概要: Enhancing the Safety of Medical Vision-Language Models by Synthetic Demonstrations
- arxiv url: http://arxiv.org/abs/2506.09067v1
- Date: Sun, 08 Jun 2025 16:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.625168
- Title: Enhancing the Safety of Medical Vision-Language Models by Synthetic Demonstrations
- Title(参考訳): 医用ビジョンランゲージモデルの安全性向上 : 合成デモによる検討
- Authors: Zhiyu Xue, Reza Abbasi-Asl, Ramtin Pedarsani,
- Abstract要約: 有害なクエリを緩和する新しい推論時防衛戦略を提案する。
我々の戦略は、性能を著しく損なうことなく、モデルの安全性を高めることを示す。
次に、セキュリティとパフォーマンスのバランスをとるためのトレードオフソリューションとして、混在するデモ戦略を紹介します。
- 参考スコア(独自算出の注目度): 13.977100716044104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative medical vision-language models~(Med-VLMs) are primarily designed to generate complex textual information~(e.g., diagnostic reports) from multimodal inputs including vision modality~(e.g., medical images) and language modality~(e.g., clinical queries). However, their security vulnerabilities remain underexplored. Med-VLMs should be capable of rejecting harmful queries, such as \textit{Provide detailed instructions for using this CT scan for insurance fraud}. At the same time, addressing security concerns introduces the risk of over-defense, where safety-enhancing mechanisms may degrade general performance, causing Med-VLMs to reject benign clinical queries. In this paper, we propose a novel inference-time defense strategy to mitigate harmful queries, enabling defense against visual and textual jailbreak attacks. Using diverse medical imaging datasets collected from nine modalities, we demonstrate that our defense strategy based on synthetic clinical demonstrations enhances model safety without significantly compromising performance. Additionally, we find that increasing the demonstration budget alleviates the over-defense issue. We then introduce a mixed demonstration strategy as a trade-off solution for balancing security and performance under few-shot demonstration budget constraints.
- Abstract(参考訳): 生成医療ビジョン言語モデル~(Med-VLM)は主に、視覚モダリティ~(eg、医療画像)や言語モダリティ~(eg、臨床クエリー)を含むマルチモーダル入力から複雑なテキスト情報~(eg、診断レポート)を生成するように設計されている。
しかし、セキュリティ上の脆弱性は未発見のままである。
Med-VLMは、保険詐欺にこのCTスキャンを使用するための詳細な指示として、‘textit{Provide details instructions for use this CT scan for insurance fraud} など、有害なクエリを拒否する能力を持つべきである。
同時に、セキュリティ上の懸念に対処することで、安全性向上メカニズムが一般的なパフォーマンスを低下させ、Med-VLMが良質な臨床クエリを拒否するリスクが生じる。
本稿では,有害なクエリを軽減し,視覚的およびテキスト的ジェイルブレイク攻撃に対する防御を可能にする,新しい推論時防御戦略を提案する。
9つのモダリティから収集した多種多様な医用画像データセットを用いて, 総合的な臨床実験に基づく防衛戦略が, 性能を著しく損なうことなく, モデル安全性を高めることを実証した。
さらに,実証予算の増大は,過防衛問題を軽減することが判明した。
次に、数ショットのデモ予算制約の下で、セキュリティとパフォーマンスのバランスをとるためのトレードオフソリューションとして、混在するデモ戦略を紹介します。
関連論文リスト
- Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare [15.438265972219869]
大規模言語モデル(LLM)は、医療アプリケーションでますます活用されている。
本研究は、7個のLDMの脆弱性を3つの高度なブラックボックスジェイルブレイク技術に系統的に評価する。
論文 参考訳(メタデータ) (2025-01-27T22:07:52Z) - Adversarial Attacks on Large Language Models in Medicine [34.17895005922139]
医療アプリケーションへの大型言語モデルの統合により、医療診断、治療勧告、患者医療の進歩が期待できる。
LLMの敵対的攻撃に対する感受性は重大な脅威となり、繊細な医学的文脈で有害な結果をもたらす可能性がある。
本研究では,3つの医療課題における2種類の敵攻撃に対するLDMの脆弱性について検討した。
論文 参考訳(メタデータ) (2024-06-18T04:24:30Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。