論文の概要: Exposing and Mitigating Calibration Biases and Demographic Unfairness in MLLM Few-Shot In-Context Learning for Medical Image Classification
- arxiv url: http://arxiv.org/abs/2506.23298v3
- Date: Thu, 17 Jul 2025 18:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.729939
- Title: Exposing and Mitigating Calibration Biases and Demographic Unfairness in MLLM Few-Shot In-Context Learning for Medical Image Classification
- Title(参考訳): 医用画像分類のためのMLLM Few-Shot In-Context Learningにおける校正バイアスの抽出と緩和と復号性
- Authors: Xing Shen, Justin Szeto, Mingyang Li, Hengguan Huang, Tal Arbel,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は、医療画像解析の文脈において、少数の文脈内学習を行う大きな可能性を秘めている。
医療画像分類のためのテキスト内学習におけるMLLMの予測と信頼性スコアの校正バイアスと人口統計学的不公平性に関する最初の調査を行った。
我々は、関連するバイアスを軽減するために、推論時キャリブレーション法であるCALINを紹介する。
- 参考スコア(独自算出の注目度): 8.43909252072479
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models (MLLMs) have enormous potential to perform few-shot in-context learning in the context of medical image analysis. However, safe deployment of these models into real-world clinical practice requires an in-depth analysis of the accuracies of their predictions, and their associated calibration errors, particularly across different demographic subgroups. In this work, we present the first investigation into the calibration biases and demographic unfairness of MLLMs' predictions and confidence scores in few-shot in-context learning for medical image classification. We introduce CALIN, an inference-time calibration method designed to mitigate the associated biases. Specifically, CALIN estimates the amount of calibration needed, represented by calibration matrices, using a bi-level procedure: progressing from the population level to the subgroup level prior to inference. It then applies this estimation to calibrate the predicted confidence scores during inference. Experimental results on three medical imaging datasets: PAPILA for fundus image classification, HAM10000 for skin cancer classification, and MIMIC-CXR for chest X-ray classification demonstrate CALIN's effectiveness at ensuring fair confidence calibration in its prediction, while improving its overall prediction accuracies and exhibiting minimum fairness-utility trade-off. Our codebase can be found at https://github.com/xingbpshen/medical-calibration-fairness-mllm.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) は、医療画像解析の文脈において、少数の文脈内学習を行う大きな可能性を秘めている。
しかし、これらのモデルの実際の臨床実践への安全な展開には、予測の精度と関連するキャリブレーションエラーの詳細な分析が必要である。
本研究では,医療画像分類のためのテキスト内学習におけるMLLMの予測と信頼性スコアの校正バイアスと人口統計学的不公平性に関する最初の調査を行う。
我々は、関連するバイアスを軽減するために、推論時キャリブレーション法であるCALINを紹介する。
具体的には、キャリブレーション行列で表されるキャリブレーションに必要なキャリブレーションの量を、2段階の手順で推定する。
次に、この推定を適用して、予測された信頼度を推定中に調整する。
基礎画像分類のためのPAPILA、皮膚がん分類のためのHAM10000、胸部X線分類のためのMIMIC-CXRの3つの医学画像データセットの実験結果は、CALINが予測における公正な信頼性の校正を確実にし、全体的な予測精度を改善し、最小の公正効用トレードオフを示すことを示す。
私たちのコードベースはhttps://github.com/xingbpshen/medical-calibration-fairness-mllmで確認できます。
関連論文リスト
- Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
キャリブレーション・リファインメント分解の新規な変分定式化について述べる。
我々は,校正誤差と精錬誤差が訓練中に同時に最小化されないという理論的,実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-01-31T15:03:54Z) - Fairness Analysis of CLIP-Based Foundation Models for X-Ray Image Classification [15.98427699337596]
X線画像分類に応用したCLIP様モデルの包括的公平性解析を行う。
我々は,ゼロショット推論と様々な微調整技術を用いて,多様な患者集団と疾患カテゴリーにおけるパフォーマンスと公平性を評価した。
論文 参考訳(メタデータ) (2025-01-31T12:23:50Z) - Mitigating Calibration Bias Without Fixed Attribute Grouping for
Improved Fairness in Medical Imaging Analysis [2.8943928153775826]
クラスタ・フォーカス (Cluster-Focal) は、まず粗悪な校正されたサンプルを識別し、それらをグループに分類し、その後、校正バイアスを改善するためにグループ指向の焦点損失を導入する。
HAM10000データセットを用いた皮膚病変分類と,多発性硬化症(MS)患者の将来の病変活動の予測について検討した。
論文 参考訳(メタデータ) (2023-07-04T14:14:12Z) - Calibration of Neural Networks [77.34726150561087]
本稿では,ニューラルネットワークの文脈における信頼性校正問題について調査する。
我々は,問題文,キャリブレーション定義,評価に対する異なるアプローチについて分析する。
実験実験では、様々なデータセットとモデルをカバーし、異なる基準に従って校正方法を比較する。
論文 参考訳(メタデータ) (2023-03-19T20:27:51Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Fair admission risk prediction with proportional multicalibration [0.16249424686052708]
マルチキャリブレーション制約は、柔軟に定義されたサブポピュレーション間のキャリブレーション誤差を補正する。
意思決定者は特定のグループに対するモデル予測を信頼するか、不信にするかを学ぶことができる。
本稿では,グループ間および予測ビン内における正の校正誤差を制限する基準である比例多重校正を提案する。
論文 参考訳(メタデータ) (2022-09-29T08:15:29Z) - DOMINO: Domain-aware Model Calibration in Medical Image Segmentation [51.346121016559024]
現代のディープニューラルネットワークはキャリブレーションが不十分で、信頼性と信頼性を損なう。
本稿では,クラスラベル間のセマンティック・コンフューザビリティと階層的類似性を利用したドメイン認識モデルキャリブレーション手法であるDOMINOを提案する。
その結果,DOMINOを校正したディープニューラルネットワークは,頭部画像分割における非校正モデルや最先端形態計測法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-13T15:31:52Z) - On the Calibration of Pre-trained Language Models using Mixup Guided by
Area Under the Margin and Saliency [47.90235939359225]
モデルキャリブレーションをさらに改善する事前学習型言語モデルのための新しい混合戦略を提案する。
本手法は,ドメイン内およびドメイン外テストサンプルの強いベースラインと比較して,最小のキャリブレーション誤差を実現する。
論文 参考訳(メタデータ) (2022-03-14T23:45:08Z) - On the relationship between calibrated predictors and unbiased volume
estimation [18.96093589337619]
機械学習による医用画像のセグメンテーションは、医用画像解析において標準となっている。
しかし、ディープラーニングモデルは、過度に自信過剰な予測をしがちである。
これにより、医療画像とより広い機械学習コミュニティの調整された予測に、新たな焦点が当てられた。
論文 参考訳(メタデータ) (2021-12-23T14:22:19Z) - Does deep learning model calibration improve performance in
class-imbalanced medical image classification? [0.8594140167290096]
モデル校正が2つの医用画像モダリティに与える影響を系統的に解析する。
その結果,0.5の既定動作閾値では,キャリブレーションにより達成される性能は,非校正確率よりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-29T12:00:32Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。