論文の概要: PSF-Med: Measuring and Explaining Paraphrase Sensitivity in Medical Vision Language Models
- arxiv url: http://arxiv.org/abs/2602.21428v1
- Date: Tue, 24 Feb 2026 23:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.634941
- Title: PSF-Med: Measuring and Explaining Paraphrase Sensitivity in Medical Vision Language Models
- Title(参考訳): PSF-Med:医療視覚言語モデルにおけるパラフレーズ感度の測定と説明
- Authors: Binesh Sadanandan, Vahid Behzadan,
- Abstract要約: 19,748個の胸部X線を約92,000個のパラフレーズと組み合わせたベンチマークであるParaphrase Sensitivity Failure (PSF)-Medを紹介する。
同じ画像のイエス/ノーフリップを測定し、フリップ率を8%から58%に設定する。
我々は、フレーミングと相関し、決定マージンシフトを予測するスパース機能を第17層で特定する。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Vision Language Models (VLMs) can change their answers when clinicians rephrase the same question, which raises deployment risks. We introduce Paraphrase Sensitivity Failure (PSF)-Med, a benchmark of 19,748 chest Xray questions paired with about 92,000 meaningpreserving paraphrases across MIMIC-CXR and PadChest. Across six medical VLMs, we measure yes/no flips for the same image and find flip rates from 8% to 58%. However, low flip rate does not imply visual grounding: text-only baselines show that some models stay consistent even when the image is removed, suggesting they rely on language priors. To study mechanisms in one model, we apply GemmaScope 2 Sparse Autoencoders (SAEs) to MedGemma 4B and analyze FlipBank, a curated set of 158 flip cases. We identify a sparse feature at layer 17 that correlates with prompt framing and predicts decision margin shifts. In causal patching, removing this feature's contribution recovers 45% of the yesminus-no logit margin on average and fully reverses 15% of flips. Acting on this finding, we show that clamping the identified feature at inference reduces flip rates by 31% relative with only a 1.3 percentage-point accuracy cost, while also decreasing text-prior reliance. These results suggest that flip rate alone is not enough; robustness evaluations should test both paraphrase stability and image reliance.
- Abstract(参考訳): 医療ビジョン言語モデル(VLM)は、臨床医が同じ質問を言い換えると答えを変えることができ、デプロイメントのリスクが高まる。
MIMIC-CXRとPadChestにまたがる約92,000の言い回しと,19,748個の胸部X線質問のベンチマークであるParaphrase Sensitivity Failure (PSF)-Medを導入する。
6つの医療用VLMで、同じ画像のイエス/ノーフリップを測定し、フリップ率を8%から58%と測定した。
テキストのみのベースラインは、画像が削除されたとしても、いくつかのモデルが一貫性を維持していることを示している。
本研究では,MedGemma 4B に GemmaScope 2 Sparse Autoencoders (SAEs) を適用し,FlipBank の解析を行った。
我々は、フレーミングと相関し、決定マージンシフトを予測するスパース機能を第17層で特定する。
因果パッチでは、この機能のコントリビューションを削除することで、平均でyeminus-no Logitマージンの45%が回復し、フリップの15%を完全に反転する。
この結果から,特定特徴を推論でクランプすることで,1.3%の精度でフリップ率を31%削減し,テキストプライオリティを低下させることを示した。
これらの結果から,フリップ率だけでは不十分であることが示唆された。
関連論文リスト
- Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - MEDEQUALQA: Evaluating Biases in LLMs with Counterfactual Reasoning [7.167933033102407]
重篤な症状と症状を一定に保ちながら,患者代名詞のみを摂動する反ファクト・ベンチマークであるMEDEQUALQAを紹介する。
我々は、GPT-4.1モデルを評価し、代名詞の変種間の安定性を測定するために、推論トレース間のセマンティックテキスト類似性(STS)を計算する。
以上の結果から,総じて高い類似性(平均STS >0.80)を示した。
論文 参考訳(メタデータ) (2025-10-09T22:12:58Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Calibrated and Robust Foundation Models for Vision-Language and Medical Image Tasks Under Distribution Shift [2.292525568003776]
CLIPやSAMといった基礎モデルには、低ショット転送学習による高度なコンピュータビジョンと医療画像があり、限られたデータでCADDを支援する。
両課題に対処するためのFIPとCMPの融合である textbfStaRFM を提案する。
パッチワイド正規化により3Dに拡張されたFIPを適用し、埋め込みシフトを減らすとともに、ボクセルレベルの予測のために修正されたCMPをセグメンテーションの不確実性に適用する。
論文 参考訳(メタデータ) (2025-07-12T09:39:07Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - MOZART: Ensembling Approach for COVID-19 Detection using Chest X-Ray Imagery [0.0]
新型コロナウイルス(COVID-19)が世界的なパンデミックを引き起こし、医療システムに悪影響を及ぼした。
従来の畳み込みニューラルネットワーク(CNN)は印象的な精度を実現している。
ウイルス検出を強化するアンサンブル学習手法であるMOZARTフレームワークを導入する。
論文 参考訳(メタデータ) (2024-10-11T21:02:58Z) - Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation [58.77994391566484]
W1KPは、画像の集合における可変性の人間の校正尺度である。
最高の知覚距離は、9つの基準線を最大18ポイント精度で上回る。
実際のプロンプトの56の言語的特徴を分析し、プロンプトの長さ、CLIP埋め込みノルム、具体性、単語感覚が最も変動に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-12T17:59:27Z) - Automated SSIM Regression for Detection and Quantification of Motion
Artefacts in Brain MR Images [54.739076152240024]
磁気共鳴脳画像における運動アーチファクトは重要な問題である。
MR画像の画質評価は,臨床診断に先立って基本的である。
構造類似度指数(SSIM)回帰に基づく自動画像品質評価法が提案されている。
論文 参考訳(メタデータ) (2022-06-14T10:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。