論文の概要: Logit-Level Uncertainty Quantification in Vision-Language Models for Histopathology Image Analysis
- arxiv url: http://arxiv.org/abs/2603.03527v1
- Date: Tue, 03 Mar 2026 21:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.092859
- Title: Logit-Level Uncertainty Quantification in Vision-Language Models for Histopathology Image Analysis
- Title(参考訳): 病理画像解析のための視覚言語モデルにおけるロジットレベル不確かさの定量化
- Authors: Betul Yurdem, Ferhat Ozgur Catak, Murat Kuzlu, Mehmet Kemal Gullu,
- Abstract要約: 視覚言語モデル(VLM)とそのマルチモーダル能力は、ほぼすべての領域で顕著な成功を収めている。
本研究では,VLMを用いた病理組織像解析のためのロジトレベルの不確実性定量化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.5879782260984691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) with their multimodal capabilities have demonstrated remarkable success in almost all domains, including education, transportation, healthcare, energy, finance, law, and retail. Nevertheless, the utilization of VLMs in healthcare applications raises crucial concerns due to the sensitivity of large-scale medical data and the trustworthiness of these models (reliability, transparency, and security). This study proposes a logit-level uncertainty quantification (UQ) framework for histopathology image analysis using VLMs to deal with these concerns. UQ is evaluated for three VLMs using metrics derived from temperature-controlled output logits. The proposed framework demonstrates a critical separation in uncertainty behavior. While VLMs show high stochastic sensitivity (cosine similarity (CS) $<0.71$ and $<0.84$, Jensen-Shannon divergence (JS) $<0.57$ and $<0.38$, and Kullback-Leibler divergence (KL) $<0.55$ and $<0.35$, respectively for mean values of VILA-M3-8B and LLaVA-Med v1.5), near-maximal temperature impacts ($Δ_T \approx 1.00$), and displaying abrupt uncertainty transitions, particularly for complex diagnostic prompts. In contrast, the pathology-specific PRISM model maintains near-deterministic behavior (mean CS $>0.90$, JS $<0.10$, KL $<0.09$) and significantly minimal temperature effects across all prompt complexities. These findings emphasize the importance of logit-level uncertainty quantification to evaluate trustworthiness in histopathology applications utilizing VLMs.
- Abstract(参考訳): ビジョンランゲージモデル(VLM)とそのマルチモーダル能力は、教育、交通、医療、エネルギー、金融、法律、小売など、ほぼすべての領域で顕著な成功を収めている。
それでも、医療応用におけるVLMの利用は、大規模医療データの感度とこれらのモデルの信頼性、透明性、セキュリティなどの信頼性に重要な懸念を生じさせる。
本研究では,VLMを用いた病理組織像解析のためのロジトレベルの不確実性定量化(UQ)フレームワークを提案する。
UQは、温度制御された出力ロジットから導出されるメトリクスを用いて、3つのVLMに対して評価される。
提案手法は,不確実性行動における重要な分離を実証する。
VLMは高い確率感度(cosine similarity (CS) $<0.71$と$<0.84$、Jensen-Shannon divergence (JS) $<0.57$と$<0.38$、Kullback-Leibler divergence (KL) $<0.55$と$<0.35$)を示すが、それぞれVILA-M3-8BとLLaVA-Med v1.5の平均値、準最大温度の影響(Δ_T \approx 1.00$)、そして特に複雑な診断プロンプトに対する突然の不確実性遷移を示す。
対照的に、病理特異的PRISMモデルは、ほぼ決定論的挙動(CS $>0.90$, JS $<0.10$, KL $<0.09$)を保ち、全ての急激な複雑さの温度効果を著しく最小化する。
これらの知見は,VLMを用いた病理組織学応用における信頼性を評価するために,ロジトレベルの不確実性定量化の重要性を強調した。
関連論文リスト
- Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - From Global to Granular: Revealing IQA Model Performance via Correlation Surface [83.65597122328133]
我々は, IQA 性能の構造化, きめ細かな解析を行う textbfGranularity-Modulated correlation (GMC) を提案する。
GMCにはtextbfDistribution Regulatorが含まれており、相関関係を規則化し、非均一な品質分布からのバイアスを軽減する。
標準ベンチマークの実験では、GCCはスカラーメトリクスに見えないパフォーマンス特性を示し、IQAモデルを分析、比較、デプロイするためのより情報に富んだ信頼性の高いパラダイムを提供する。
論文 参考訳(メタデータ) (2026-01-29T13:55:26Z) - PUNCH: Physics-informed Uncertainty-aware Network for Coronary Hemodynamics [8.812266680285369]
標準血管造影から冠血流量を直接推定するための非診断・不確実性認識フレームワークを提案する。
このシステムは、コントラスト輸送の第一原理モデルから冠血流を推定するために、物理インフォームドニューラルネットワークと変分推論を統合している。
パイプラインは、患者1人あたり約3分で、1つのGPU上で動作し、人口レベルのトレーニングは行わない。
論文 参考訳(メタデータ) (2026-01-23T21:47:23Z) - VSF-Med:A Vulnerability Scoring Framework for Medical Vision-Language Models [6.390468088226493]
VSF-Medは医療ビジョン言語モデル(VLM)のためのエンドツーエンドの脆弱性修正フレームワークである。
VSF-Medは5000個の放射線画像から3万以上の敵の変種を合成し、単一のコマンドで医療用VLMの再現可能なベンチマークを可能にする。
Llama-3.2-11B-Vision-Instructは、攻撃効果の持続性に対して1.29sigma$をピーク脆弱性として、GPT-4oは0.69sigma$を同じベクトルに対して0.28sigma$をピーク脆弱性として示す。
論文 参考訳(メタデータ) (2025-06-25T02:56:38Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks [2.033441577169909]
VLM(Vision-Language Models)は、VQA(Visual Question Answering)のような医療タスクにおいて大きな可能性を秘めている。
目に見えないデータに対する分散シフトに対する堅牢性は、安全なデプロイメントにとって重要な関心事です。
私たちは、現在の落とし穴を克服する3つの重要な要件を中心に、SURE-VQAと呼ばれる新しいフレームワークを紹介します。
論文 参考訳(メタデータ) (2024-11-29T13:22:52Z) - Improving Medical Diagnostics with Vision-Language Models: Convex Hull-Based Uncertainty Analysis [0.3277163122167434]
本稿では,視覚質問応答(VQA)のための医療アプリケーションにおける凸包アプローチを用いて,視覚言語モデル(VLM)の不確実性を評価する新しいアプローチを提案する。
その結果,LLM-CXR VLMは高温条件下で高い不確実性を示した。
論文 参考訳(メタデータ) (2024-11-24T17:49:48Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Localizing Anomalies via Multiscale Score Matching Analysis [13.898576482792173]
本稿では,脳MRIにおける異常局所化のための新しい教師なし手法であるSpatial-MSMAを紹介する。
パッチ位置とグローバル画像の特徴を条件としたフレキシブルな正規化フローモデルを用いて、パッチワイド異常スコアを推定する。
この方法は、通常発達している幼児の1,650T1およびT2重み付き脳MRIのデータセットで評価される。
論文 参考訳(メタデータ) (2024-06-28T17:57:12Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。