論文の概要: Predictive Entropy Links Calibration and Paraphrase Sensitivity in Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.08941v1
- Date: Fri, 10 Apr 2026 04:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.678684
- Title: Predictive Entropy Links Calibration and Paraphrase Sensitivity in Medical Vision-Language Models
- Title(参考訳): 医用視覚言語モデルにおける予測エントロピーリンクの校正とパラフレーズ感度
- Authors: Binesh Sadanandan, Vahid Behzadan,
- Abstract要約: 我々は,MedGemma 4BITの分布MIMIC CXRと外分布PadChest chest X ray データセットの5つの不確実性定量化手法を示し,LLaVA RAD7Bのクロスアーキテクチャ検証を行った。
うまく校正された単一モデル法では、一方のフォワードパスからの予測エントロピーは、メドジェマのAUROC 0.711、LLaVARAD p 10 4の0.878、信頼できないと敏感な予測の両方を1つのエントロピーしきい値でフラグ付けることができる。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Vision Language Models VLMs suffer from two failure modes that threaten safe deployment mis calibrated confidence and sensitivity to question rephrasing. We show they share a common cause, proximity to the decision boundary, by benchmarking five uncertainty quantification methods on MedGemma 4BIT across in distribution MIMIC CXR and outof distribution PadChest chest X ray datasets, with cross architecture validation on LLaVA RAD7B. For well calibrated single model methods, predictive entropy from one forward pass predicts which samples will flip under rephrasing AUROC 0.711 on MedGemma, 0.878 on LLaVARAD p 10 4, enabling a single entropy threshold to flag both unreliable and rephrase sensitive predictions. A five member LoRA ensemble fails under the MIMIC PadChest shift 42.9 ECE, 34.1 accuracy, though LLaVA RAD s ensemble does not collapse 69.1. MC Dropout achieves the best calibration ECE 4.3 and selective prediction coverage 21.5 at 5 risk, yet total entropy from a single forward pass outperforms the ensemble for both error detection AUROC 0.743 vs 0.657 and paraphrase screening. Simple methods win.
- Abstract(参考訳): 医療ビジョン言語モデル VLMは、安全なデプロイメントを脅かす2つの障害モードに苦しむ。
MedGemma 4BIT の分布MIMIC CXR と外分布PadChest chest X ray データセットの5つの不確実な定量化手法を LLaVA RAD7B 上のクロスアーキテクチャ検証を用いてベンチマークすることで、決定境界に近接する共通の原因を共有することを示した。
うまく校正された単一モデル法では、一方のフォワードパスからの予測エントロピーは、メドジェマのAUROC 0.711、LLaVARAD p 10 4の0.878の値で、どのサンプルが反転するかを予測する。
5つのメンバーのLoRAアンサンブルはMIMIC PadChest shift 42.9 ECE、34.1の精度で失敗するが、LLaVA RADアンサンブルは69.1に崩壊しない。
MC Dropout は最高のキャリブレーション ECE 4.3 と選択予測カバレッジ 21.5 を5つのリスクで達成するが、単一の前方通過による全エントロピーはエラー検出 AUROC 0.743 対 0.657 のアンサンブルとパラフレーズスクリーニングの両方に優れる。
単純な方法が勝つ。
関連論文リスト
- Pedestrian Crossing Intent Prediction via Psychological Features and Transformer Fusion [6.689013818004752]
歩行者意図予測のための軽量・社会的情報アーキテクチャを提案する。
ハイウェイエンコーダ、コンパクト 4-token Transformer、グローバル セルフアテンション プーリングを使って、4つの行動ストリーム(アテンション、位置、状況、相互作用)を融合する。
提案手法は、モダリティに依存しない、ビジョン言語パイプラインとの統合が容易で、リソース制約のあるプラットフォーム上でのリスク認識の意図予測に適している。
論文 参考訳(メタデータ) (2026-03-20T00:19:34Z) - TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same [2.755751829139168]
ほとんどの不確実性を認識したロボットシステムは、予測の不確実性を単一のスカラースコアに分解し、それを使って一様に修正された応答をトリガーする。
このアグリゲーションは、破損した観測結果から不確実性が生じるか、あるいは学習されたモデルと真のシステム力学とのミスマッチから生じるのかを曖昧にしている。
本研究では,不確かさを動脈およびてんかん成分に分解する軽量なポストホックフレームワークを導入し,これらの信号を用いて推論時のシステム応答を調節する。
論文 参考訳(メタデータ) (2026-03-09T09:07:43Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - CorBenchX: Large-Scale Chest X-Ray Error Dataset and Vision-Language Model Benchmark for Report Error Correction [11.731590131260424]
CorBenchXは胸部X線レポートにおける自動エラー検出と修正のためのスイートである。
まず,26,326個の胸部X線誤差の大規模データセットを合成した。
オープンソースとクローズドなビジョン言語モデルの両方をベンチマークします。
論文 参考訳(メタデータ) (2025-05-17T15:39:39Z) - Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。