論文の概要: When Background Matters: Breaking Medical Vision Language Models by Transferable Attack
- arxiv url: http://arxiv.org/abs/2604.17318v1
- Date: Sun, 19 Apr 2026 08:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.460782
- Title: When Background Matters: Breaking Medical Vision Language Models by Transferable Attack
- Title(参考訳): 医療ビジョン言語モデルにおけるトランスファー可能な攻撃の背景
- Authors: Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen,
- Abstract要約: VLM(Vision-Language Models)は、臨床診断においてますます使われてきているが、敵の攻撃に対する堅牢性はほとんど解明されていない。
我々はMedFocusLeakを提案する。MedFocusLeakは高度に転送可能なブラックボックス・マルチモーダル・アタックである。
- 参考スコア(独自算出の注目度): 32.17770161701116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly used in clinical diagnostics, yet their robustness to adversarial attacks remains largely unexplored, posing serious risks. Existing medical attacks focus on secondary objectives such as model stealing or adversarial fine-tuning, while transferable attacks from natural images introduce visible distortions that clinicians can easily detect. To address this, we propose MedFocusLeak, a highly transferable black-box multimodal attack that induces incorrect yet clinically plausible diagnoses while keeping perturbations imperceptible. The method injects coordinated perturbations into non-diagnostic background regions and employs an attention distraction mechanism to shift the model's focus away from pathological areas. Extensive evaluations across six medical imaging modalities show that MedFocusLeak achieves state-of-the-art performance, generating misleading yet realistic diagnostic outputs across diverse VLMs. We further introduce a unified evaluation framework with novel metrics that jointly capture attack success and image fidelity, revealing a critical weakness in the reasoning capabilities of modern clinical VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、臨床診断においてますます使われてきているが、敵の攻撃に対する堅牢性はほとんど未発見であり、深刻なリスクを伴っている。
既存の医療攻撃は、モデルステルスや敵の微調整のような二次的な目的に焦点が当てられ、一方、自然な画像からの移動可能な攻撃は、臨床医が容易に検出できる可視歪みを導入する。
そこで我々はMedFocusLeak(MedFocusLeak)を提案する。
この方法は,非診断的背景領域に協調的摂動を注入し,注意散逸機構を用いて,病理領域からモデルの焦点を逸脱させる。
6つの医用画像モダリティの大規模な評価は、MedFocusLeakが最先端のパフォーマンスを達成し、様々なVLMに対して誤解を招くが現実的な診断出力を生成することを示している。
さらに,攻撃成功と画像の忠実度を両立させる新しい指標を用いた統合評価フレームワークを導入し,現代の臨床VLMの推論能力の重大な弱点を明らかにする。
関連論文リスト
- Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate [2.645243404278707]
本稿では,対数弁証法を用いて診断厳格を強制するマルチエージェントフレームワークDialectic-Medを提案する。
ファリシフィケーションの認知過程を明示的にモデル化することにより、診断的推論が検証された視覚領域にしっかりと根付いていることを保証する。
論文 参考訳(メタデータ) (2026-04-13T10:09:36Z) - MEDIC-AD: Towards Medical Vision-Language Model's Clinical Intelligence [17.512220295924816]
現在の医療ビジョンランゲージモデル(VLM)には、その幅広い知識を臨床的に実行可能なアウトプットに変換するメカニズムが欠けている。
MEDIC-ADは臨床指向のVLMであり,これら3つの能力をステージワイドフレームワークを通じて強化する。
MEDIC-ADは, 異常検出, 症状追跡, 異常セグメンテーションにおける性能を着実に向上させる。
論文 参考訳(メタデータ) (2026-03-28T07:26:40Z) - When Minor Edits Matter: LLM-Driven Prompt Attack for Medical VLM Robustness in Ultrasound [17.261506344527195]
超音波を含む医用画像解析において,視覚言語モデル(VLM)は強いマルチモーダル推論能力と競合性能を示した。
Med-VLMは自然言語による命令で動作し、プロンプトの定式化を現実的で実用的に悪用可能な脆弱性点にしている。
本稿では,大規模言語モデル(LLM)を応用したスケーラブルな対数評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-22T03:58:34Z) - Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - On the Robustness of Medical Vision-Language Models: Are they Truly Generalizable? [0.9626666671366837]
我々は、複数の医療画像データセットに複数の摂動を適用した汚職ベンチマークであるMediMeta-Cを紹介する。
本稿では,事前訓練されたMVLMの視覚的エンコーダ適応であるRobustMedCLIPを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:08:31Z) - Natias: Neuron Attribution based Transferable Image Adversarial Steganography [62.906821876314275]
逆行性ステガナグラフィーは、ディープラーニングに基づくステガナリシスを効果的に欺く能力から、かなりの注目を集めている。
そこで我々は,Natias という新たな逆向きステガノグラフィー手法を提案する。
提案手法は既存の逆向きステガノグラフィーフレームワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-08T04:09:51Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Gravity Network for end-to-end small lesion detection [50.38534263407915]
本稿では,医療画像の小さな病変を特異的に検出するワンステージエンド・ツー・エンド検出器を提案する。
小さな病変の正確な局在化は、その外観と、それらが見つかる様々な背景によって困難を呈する。
この新たなアーキテクチャをGravityNetと呼び、新しいアンカーを重力点と呼ぶ。
論文 参考訳(メタデータ) (2023-09-22T14:02:22Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。