論文の概要: Medusa: Cross-Modal Transferable Adversarial Attacks on Multimodal Medical Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2511.19257v1
- Date: Mon, 24 Nov 2025 16:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.298416
- Title: Medusa: Cross-Modal Transferable Adversarial Attacks on Multimodal Medical Retrieval-Augmented Generation
- Title(参考訳): Medusa: マルチモーダル医療検索型世代に対するクロスモーダルトランスファー可能な敵攻撃
- Authors: Yingjia Shang, Yi Liu, Huimin Wang, Furong Li, Wenfang Sun, Wu Chengyu, Yefeng Zheng,
- Abstract要約: マルチモーダル医療検索増強世代(MMed-RAG)システムは、臨床決定支援においてますます採用されている。
本稿では,MMed-RAGシステムに対するクロスモーダル・トランスファー可能な敵攻撃を実現するための新しいフレームワークであるMedusaを提案する。
本研究は,MMed-RAGシステムにおける致命的な脆弱性を明らかにし,安全クリティカルな医療応用におけるロバスト性のベンチマークの必要性を強調した。
- 参考スコア(独自算出の注目度): 27.594129219205954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of retrieval-augmented vision-language models, multimodal medical retrieval-augmented generation (MMed-RAG) systems are increasingly adopted in clinical decision support. These systems enhance medical applications by performing cross-modal retrieval to integrate relevant visual and textual evidence for tasks, e.g., report generation and disease diagnosis. However, their complex architecture also introduces underexplored adversarial vulnerabilities, particularly via visual input perturbations. In this paper, we propose Medusa, a novel framework for crafting cross-modal transferable adversarial attacks on MMed-RAG systems under a black-box setting. Specifically, Medusa formulates the attack as a perturbation optimization problem, leveraging a multi-positive InfoNCE loss (MPIL) to align adversarial visual embeddings with medically plausible but malicious textual targets, thereby hijacking the retrieval process. To enhance transferability, we adopt a surrogate model ensemble and design a dual-loop optimization strategy augmented with invariant risk minimization (IRM). Extensive experiments on two real-world medical tasks, including medical report generation and disease diagnosis, demonstrate that Medusa achieves over 90% average attack success rate across various generation models and retrievers under appropriate parameter configuration, while remaining robust against four mainstream defenses, outperforming state-of-the-art baselines. Our results reveal critical vulnerabilities in the MMed-RAG systems and highlight the necessity of robustness benchmarking in safety-critical medical applications. The code and data are available at https://anonymous.4open.science/r/MMed-RAG-Attack-F05A.
- Abstract(参考訳): 検索・拡張視覚言語モデルの急速な進歩に伴い, 臨床診断支援において, マルチモーダル医療検索・拡張世代(MMed-RAG)が採用されつつある。
これらのシステムは、タスクの視覚的およびテキスト的証拠、例えば、レポート生成、および疾患診断を統合するために、クロスモーダル検索を行うことで、医療応用を向上させる。
しかし、その複雑なアーキテクチャは、特に視覚的な入力摂動によって、探索されていない敵の脆弱性も引き起こす。
本稿では,Med-RAGシステムに対するクロスモーダル・トランスファー可能な敵攻撃をブラックボックス環境下で構築するための新しいフレームワークであるMedusaを提案する。
特に、Medusaはこの攻撃を摂動最適化問題として定式化し、多陽性InfoNCE損失(MPIL)を利用して、相手の視覚的埋め込みを医学的に可視だが悪意のあるテキストのターゲットと整列させ、検索プロセスをハイジャックする。
転送可能性を高めるため、サロゲートモデルアンサンブルを採用し、不変リスク最小化(IRM)を付加したデュアルループ最適化戦略を設計する。
医療報告生成と疾患診断を含む2つの現実的な医療タスクに関する大規模な実験は、メデューサが適切なパラメータ構成の下で、様々な世代モデルとレトリバーで平均的な攻撃成功率を90%以上達成し、一方で4つの主流防衛に対して頑健であり、最先端のベースラインを上回っていることを実証している。
本研究は,MMed-RAGシステムにおける重大な脆弱性を明らかにするとともに,安全クリティカルな医療応用におけるロバストネスベンチマークの必要性を明らかにするものである。
コードとデータはhttps://anonymous.4open.science/r/MMed-RAG-Attack-F05Aで公開されている。
関連論文リスト
- How to make Medical AI Systems safer? Simulating Vulnerabilities, and Threats in Multimodal Medical RAG System [21.40560864239872]
我々は医療用RAGシステムの脆弱性を調査する新しいフレームワークであるMedThreatRAGを提案する。
我々のアプローチの重要な革新は、シミュレーションされたセミオープンアタック環境の構築である。
We show that MedThreatRAG reduces answer F1 scores to 27.66% and downs LLaVA-Med-1.5 F1 rate to 51.36%。
論文 参考訳(メタデータ) (2025-08-24T05:11:09Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - MIRA: A Novel Framework for Fusing Modalities in Medical RAG [6.044279952668295]
MLLMにおける実測精度の最適化を目的としたMIRA(Multimodal Intelligent Retrieval and Augmentation)フレームワークを提案する。
MIRAは,(1)検索コンテキスト数を動的に調整して事実リスクを管理する校正再考・再配置モジュール,(2)画像埋め込みと医用知識ベースを統合した医用RAGフレームワークと,効率的なマルチモーダル推論を行うクエリ・リライトモジュールの2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-07-10T16:33:50Z) - MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - MrM: Black-Box Membership Inference Attacks against Multimodal RAG Systems [31.53306157650065]
マルチモーダル検索拡張生成(RAG)システムは、クロスモーダル知識を統合することで、大きな視覚言語モデルを強化する。
これらの知識データベースには、プライバシー保護を必要とする機密情報が含まれている可能性がある。
MrMはマルチモーダルRAGシステムを対象とした最初のブラックボックスMIAフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T03:48:50Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - MedViT: A Robust Vision Transformer for Generalized Medical Image
Classification [4.471084427623774]
我々は,CNNの局所性と視覚変換器のグローバル接続性を備えた,頑健で効率的なCNN-Transformerハイブリッドモデルを提案する。
提案したハイブリッドモデルは,MedMNIST-2Dデータセットの大規模コレクションに関する最先端の研究と比較して,高い堅牢性と一般化能力を示す。
論文 参考訳(メタデータ) (2023-02-19T02:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。