論文の概要: Consistent but Dangerous: Per-Sample Safety Classification Reveals False Reliability in Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.20985v1
- Date: Sun, 22 Mar 2026 00:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.181034
- Title: Consistent but Dangerous: Per-Sample Safety Classification Reveals False Reliability in Medical Vision-Language Models
- Title(参考訳): 一貫性はあるが危険な:医療ビジョン・ランゲージモデルにおける偽の信頼性を調査するサンプルごとの安全分類
- Authors: Binesh Sadanandan, Vahid Behzadan,
- Abstract要約: 入力画像ではなくテキストパターンを頼りにすることで,モデルが完全整合性を達成することを示す。
我々は,4つのクワラントの安全分類を導入し,一貫性(パラフレーズ付きプロンプト間の安定な予測)と画像信頼度を共同評価する。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consistency under paraphrase, the property that semantically equivalent prompts yield identical predictions, is increasingly used as a proxy for reliability when deploying medical vision-language models (VLMs). We show this proxy is fundamentally flawed: a model can achieve perfect consistency by relying on text patterns rather than the input image. We introduce a four-quadrant per-sample safety taxonomy that jointly evaluates consistency (stable predictions across paraphrased prompts) and image reliance (predictions that change when the image is removed). Samples are classified as Ideal (consistent and image-reliant), Fragile (inconsistent but image-reliant), Dangerous (consistent but not image-reliant), or Worst (inconsistent and not image-reliant). Evaluating five medical VLM configurations across two chest X-ray datasets (MIMIC-CXR, PadChest), we find that LoRA fine-tuning dramatically reduces flip rates but shifts a majority of samples into the Dangerous quadrant: LLaVA-Rad Base achieves a 1.5% flip rate on PadChest while 98.5% of its samples are Dangerous. Critically, Dangerous samples exhibit high accuracy (up to 99.6%) and low entropy, making them invisible to standard confidence-based screening. We observe a negative correlation between flip rate and Dangerous fraction (r = -0.89, n=10) and recommend that deployment evaluations always pair consistency checks with a text-only baseline: a single additional forward pass that exposes the false reliability trap.
- Abstract(参考訳): 言い換えれば、意味論的に等価な性質である一貫性は、医療ビジョン言語モデル(VLM)をデプロイする際の信頼性のプロキシとして、ますます利用されてきている。
モデルは入力画像ではなくテキストパターンに依存することによって、完全な一貫性を達成することができる。
本研究では,画像の一貫性(パラフレーズ付きプロンプト間の安定な予測)と画像信頼(画像が削除されたときに変化する予測)を共同で評価する,サンプルごとの4つのクアドラント安全分類を導入する。
サンプルはIdeal(一貫性とイメージ耐性)、Fragile(一貫性はないがイメージ耐性)、Dangerous(一貫性はあるがイメージ耐性ではない)、Worst(一貫性がなく、イメージ耐性ではない)に分類される。
2つの胸部X線データセット(MIMIC-CXR,PadChest)にまたがる5つの医療用VLM構成を評価すると、LoRAの微調整はフリップ率を劇的に低下させるが、ほとんどのサンプルは危険なクアドラントにシフトする。
臨界的に、危険なサンプルは高い精度(最大99.6%)でエントロピーが低く、標準の信頼に基づくスクリーニングでは見えない。
我々は、フリップレートと危険率(r = -0.89, n=10)の負の相関を観察し、デプロイ評価は、常にテキストのみのベースラインとペアの整合性チェックを推奨する。
関連論文リスト
- Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning [10.264467364282865]
類似性証拠(SaE)は、類似性証拠ヘッド(SEH)を導入してテキスト画像の類似性を校正する
SaEは、最先端のマクロ平均精度を、20%のラベル予算で、医療画像データセット上で82.57%の精度で達成している。
論文 参考訳(メタデータ) (2026-02-21T15:21:54Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - Deep learning models are vulnerable, but adversarial examples are even more vulnerable [7.097468024050319]
この研究は、画像に基づく敵の例が特に閉塞に敏感であることを実証的に見出した。
本研究では,従来の逆行訓練の破滅的なオーバーフィッティングを回避するために,スライディングウィンドウマスクを用いた適応例検出(SWM-AED)を提案する。
CIFAR-10の分類と攻撃による評価は、ほとんどの場合62%以上の精度で96.5%までの堅牢な性能を示した。
論文 参考訳(メタデータ) (2025-11-07T08:43:08Z) - Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。