論文の概要: VSF-Med:A Vulnerability Scoring Framework for Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.00052v1
- Date: Wed, 25 Jun 2025 02:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.147824
- Title: VSF-Med:A Vulnerability Scoring Framework for Medical Vision-Language Models
- Title(参考訳): VSF-Med:医療ビジョンランゲージモデルのための脆弱性検査フレームワーク
- Authors: Binesh Sadanandan, Vahid Behzadan,
- Abstract要約: VSF-Medは医療ビジョン言語モデル(VLM)のためのエンドツーエンドの脆弱性修正フレームワークである。
VSF-Medは5000個の放射線画像から3万以上の敵の変種を合成し、単一のコマンドで医療用VLMの再現可能なベンチマークを可能にする。
Llama-3.2-11B-Vision-Instructは、攻撃効果の持続性に対して1.29sigma$をピーク脆弱性として、GPT-4oは0.69sigma$を同じベクトルに対して0.28sigma$をピーク脆弱性として示す。
- 参考スコア(独自算出の注目度): 6.390468088226493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) hold great promise for streamlining labour-intensive medical imaging workflows, yet systematic security evaluations in clinical settings remain scarce. We introduce VSF--Med, an end-to-end vulnerability-scoring framework for medical VLMs that unites three novel components: (i) a rich library of sophisticated text-prompt attack templates targeting emerging threat vectors; (ii) imperceptible visual perturbations calibrated by structural similarity (SSIM) thresholds to preserve clinical realism; and (iii) an eight-dimensional rubric evaluated by two independent judge LLMs, whose raw scores are consolidated via z-score normalization to yield a 0--32 composite risk metric. Built entirely on publicly available datasets and accompanied by open-source code, VSF--Med synthesizes over 30,000 adversarial variants from 5,000 radiology images and enables reproducible benchmarking of any medical VLM with a single command. Our consolidated analysis reports mean z-score shifts of $0.90\sigma$ for persistence-of-attack-effects, $0.74\sigma$ for prompt-injection effectiveness, and $0.63\sigma$ for safety-bypass success across state-of-the-art VLMs. Notably, Llama-3.2-11B-Vision-Instruct exhibits a peak vulnerability increase of $1.29\sigma$ for persistence-of-attack-effects, while GPT-4o shows increases of $0.69\sigma$ for that same vector and $0.28\sigma$ for prompt-injection attacks.
- Abstract(参考訳): 視覚言語モデル(VLM)は、労働集約型医療画像ワークフローの合理化を大いに約束している。
VSF-Medは3つの新しいコンポーネントを結合した医療用VLMのためのエンドツーエンドの脆弱性検査フレームワークである。
(i)新興脅威ベクトルをターゲットにした高度なテキストプロンプトアタックテンプレートのリッチライブラリ。
二 臨床リアリズムの保存のための構造類似度(SSIM)閾値によって調整された知覚不能な視覚摂動
三 独立審査員2名により評価された八次元ルーブリックで、原点をzスコア正規化により積分し、0--32複合リスク測定値を得る。
VSF-Medは完全に公開データセットに基づいて構築され、オープンソースコードとともに、5000の放射線画像から3万以上の敵の変種を合成し、単一のコマンドで医療用VLMの再現可能なベンチマークを可能にする。
総合的な分析報告では、攻撃効果の持続性は0.90\sigma$、即時注入効果は0.74\sigma$、最先端VLMの安全バイパス成功は0.63\sigma$となっている。
特に、Llama-3.2-11B-Vision-Instructは、攻撃効果の持続性に対して1.29\sigma$がピーク脆弱性、GPT-4oは同じベクトルに対して0.69\sigma$がピーク脆弱性として0.28\sigma$が上昇している。
関連論文リスト
- Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models [7.916129615051081]
拡散モデルにより生成された34,000以上の合成画像からなるデータセットを提案する。
データセットには、バリデーションのためのゴールドスタンダード参照として機能する214の人間アノテーション付きイメージが含まれている。
論文 参考訳(メタデータ) (2025-06-25T07:06:29Z) - A Multi-Pass Large Language Model Framework for Precise and Efficient Radiology Report Error Detection [1.8604092379196109]
大規模言語モデル (LLM) を用いた放射線診断用証明読解法では, 誤りの頻度が低いため, 正の予測値 (PPV) が制限される。
3パス LLM フレームワークは PPV を大幅に強化し、運用コストを削減した。
論文 参考訳(メタデータ) (2025-06-25T04:02:29Z) - Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks [2.033441577169909]
VLM(Vision-Language Models)は、VQA(Visual Question Answering)のような医療タスクにおいて大きな可能性を秘めている。
そのような堅牢性を評価するには、モデルの振る舞いに関する体系的な洞察を可能にする、制御された実験的な設定が必要である。
我々は、現在の落とし穴を克服し、VLMの堅牢性を体系的に解析する3つの重要な要件を中心に、textitSURE-VQAと呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-11-29T13:22:52Z) - A Comprehensive Framework for Automated Segmentation of Perivascular Spaces in Brain MRI with the nnU-Net [37.179674347248266]
神経変性疾患では、PVS(perivascular space)の増大が一般的である。
現在不足している信頼性の高いPVS検出方法が必要である。
論文 参考訳(メタデータ) (2024-11-29T09:19:57Z) - Toward Automatic Relevance Judgment using Vision--Language Models for Image--Text Retrieval Evaluation [56.49084589053732]
VLM(Vision-Language Models)は、様々なアプリケーションで成功を収めてきたが、関連性判断を支援する可能性はまだ不明である。
本稿では,CLIP,LLaVA,GPT-4Vを含むVLMの関連性評価機能について,ゼロショット方式でマルチメディアコンテンツ作成に適した大規模テキスト分割ホック検索タスクで評価する。
論文 参考訳(メタデータ) (2024-08-02T16:15:25Z) - CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文 参考訳(メタデータ) (2024-06-10T04:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。