論文の概要: CXR-ContraBench: Benchmarking Negated-Option Attraction in Medical VLMs
- arxiv url: http://arxiv.org/abs/2605.05810v1
- Date: Thu, 07 May 2026 07:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.604199
- Title: CXR-ContraBench: Benchmarking Negated-Option Attraction in Medical VLMs
- Title(参考訳): CXR-ContraBench:医療用VLMにおける負のオプティオンアトラクションのベンチマーク
- Authors: Zhengru Fang, Yanan Ma, Yu Guo, Senkang Hu, Yixian Zhang, Hangcheng Cao, Wenbo Ding, Yuguang Fang,
- Abstract要約: CXR-ContraBenchは、内部のReXVQAスライスと外部のOpenIおよびCheXpertプロトコルにまたがる診断ベンチマークである。
我々は,この失敗を,視覚的証拠と疑問の両方に矛盾する場合でも,否定的回答オプションにモデルを引き付けるという,否定的選択の誘因として研究する。
- 参考スコア(独自算出の注目度): 20.96410413299322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a chest X-ray shows consolidation but the question asks which finding is present, a medical vision-language model may answer "No consolidation." This is more than an incorrect choice: it is a polarity reversal that emits a clinical statement contradicting the image. We study this failure as negated-option attraction, where a model is drawn to a negated answer option even when it conflicts with both the visual evidence and the question. We introduce CXR-ContraBench (Chest X-Ray Contradiction Benchmark), a diagnostic benchmark spanning internal ReXVQA slices and external OpenI and CheXpert protocols. The benchmark centers on present-finding questions, where selecting "No X" despite visible X creates the main clinical risk, and uses absent-finding questions as secondary tests of whether models copy negated wording. Across CheXpert protocols, the failure is substantial and persistent. On a strict direct presence probe, MedGemma and Qwen2.5-VL reach only 31.49% and 30.21% accuracy, respectively; on a matched 135,754-record CheXpert training-split protocol, both models select negated options on over 62% of presence questions. Chain-of-thought prompting reduces some presence-side reversals but does not eliminate them and can amplify absence-side contradictions. Finally, QCCV-Neg (Question-Conditioned Consistency Verifier for Negation) deterministically repairs the measured polarity-confused subset without retraining, raising MedGemma and Qwen2.5-VL to 96.60% and 95.32% accuracy on the direct presence probe. These results show that standard accuracy can hide a clinically meaningful inference-time polarity failure. Source code and benchmark construction scripts are available at https://github.com/fangzr/cxr-contrabench-code.
- Abstract(参考訳): 胸部X線が凝固を示すが、どの発見があるのかを問うと、医療ビジョン言語モデルが「凝固しない」と答えることがある。
これは単に誤った選択ではなく、画像に矛盾する臨床声明を出力する極性反転である。
我々は,この失敗を,視覚的証拠と疑問の両方に矛盾する場合でも,否定的回答オプションにモデルを引き付けるという,否定的選択の誘因として研究する。
我々は、内部ReXVQAスライスと外部OpenIおよびCheXpertプロトコルにまたがる診断ベンチマークであるCXR-ContraBench(Chest X-Ray Contradiction Benchmark)を紹介する。
このベンチマークは、目に見えるXにもかかわらず"No X"を選択することで主要な臨床リスクを生じさせ、モデルが否定された単語をコピーするかどうかの二次的なテストとして、未定義の質問を使用する。
CheXpertプロトコル全体では、障害は相当で永続的である。
厳密な直接プレゼンスプローブでは、MedGemmaとQwen2.5-VLはそれぞれ31.49%と30.21%の精度に達し、一致した135,754のCheXpertトレーニングスプリットプロトコルでは、両方のモデルが62%以上のプレゼンス質問に対して無効オプションを選択する。
思考の連鎖は、いくつかの存在側の逆転を減少させるが、それらを排除せず、不在側の矛盾を増幅する。
最後に、QCCV-Neg (Question-Conditioned Consistency Verifier for Negation) は、測定された極性分解部分集合を再トレーニングせずに決定的に修復し、MedGemma と Qwen2.5-VL を96.60% と95.32% に引き上げる。
これらの結果から,標準精度は臨床的に有意な推測時間極性障害を隠蔽する可能性が示唆された。
ソースコードとベンチマーク構築スクリプトはhttps://github.com/fangzr/cxr-contrabench-codeで入手できる。
関連論文リスト
- Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - A Reasoning-Enabled Vision-Language Foundation Model for Chest X-ray Interpretation [48.23500302185585]
CXR解釈のための推論可能な視覚言語モデルであるCheXOneを提案する。
CheXOneは、診断予測と明示的で臨床的に根拠付けられた推論トレースを共同で生成する。
55%のケースでは,CheXOneドラフトレポートは常駐レポートと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2026-04-01T05:19:09Z) - AdURA-Net: Adaptive Uncertainty and Region-Aware Network [0.7771558179849474]
臨床的意思決定においては、モデルが確実な予測を強制されるべきではないため、不確実なラベルがトリッキーな役割を果たす。
本稿では,高信頼胸部疾患分類のための幾何駆動型適応不確実性認識フレームワークAdURA-Netを提案する。
論文 参考訳(メタデータ) (2026-02-27T08:56:24Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning [10.264467364282865]
類似性証拠(SaE)は、類似性証拠ヘッド(SEH)を導入してテキスト画像の類似性を校正する
SaEは、最先端のマクロ平均精度を、20%のラベル予算で、医療画像データセット上で82.57%の精度で達成している。
論文 参考訳(メタデータ) (2026-02-21T15:21:54Z) - Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Interpreting Chest X-rays via CNNs that Exploit Hierarchical Disease
Dependencies and Uncertainty Labels [0.33598755777055367]
本稿では,14の一般的な胸部疾患の存在と観察を診断するための,深部畳み込みニューラルネットワーク(CNN)に基づく枠組みを提案する。
提案手法はCheXpertコンペティションのinde-pendentテストセット上でも評価され, 経験者5名によるアパネルでアノテートされた500個のCXR研究が含まれている。
論文 参考訳(メタデータ) (2020-05-25T11:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。