論文の概要: Calibrated and Robust Foundation Models for Vision-Language and Medical Image Tasks Under Distribution Shift
- arxiv url: http://arxiv.org/abs/2507.09222v2
- Date: Sun, 20 Jul 2025 07:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 12:28:43.120479
- Title: Calibrated and Robust Foundation Models for Vision-Language and Medical Image Tasks Under Distribution Shift
- Title(参考訳): 分布シフト下における視覚・言語・医用画像タスクの校正・ロバスト基礎モデル
- Authors: Behraj Khan, Tahir Qasim Syed, Nouman M. Durrani, Bilal Naseem, Shabir Ahmad, Rizwan Qureshi,
- Abstract要約: CLIPやSAMといった基礎モデルには、低ショット転送学習による高度なコンピュータビジョンと医療画像があり、限られたデータでCADDを支援する。
両課題に対処するためのFIPとCMPの融合である textbfStaRFM を提案する。
パッチワイド正規化により3Dに拡張されたFIPを適用し、埋め込みシフトを減らすとともに、ボクセルレベルの予測のために修正されたCMPをセグメンテーションの不確実性に適用する。
- 参考スコア(独自算出の注目度): 2.292525568003776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models like CLIP and SAM have advanced computer vision and medical imaging via low-shot transfer learning, aiding CADD with limited data. However, their deployment faces two key challenges. \textit{distribution shift} where pre-training and post-training data distributions differ (e.g., due to inter-center image acquisition) and \textit{confidence misalignment}, which leads to overconfident errors. These issues surface differently, vision-language models (e.g., CLIP) suffer from 2D embedding shift (image-text misalignment), while medical models (e.g., SAM) encounter 3D domain shifts (e.g., scanner variation) and voxel-wise calibration need. Existing solutions are domain-specific. We propose \textbf{StaRFM}, a fusion of Fisher information penalty (FIP) and confidence misalignment penalty (CMP) tackling both challenges. It applies FIP, extended to 3D via patch-wise regularization, to reduce embedding shift, and CMP, reformulated for voxel-level predictions, to calibrate segmentation uncertainty. We derive PAC-Bayes bounds. FIP controls generalization via the Fisher-Rao norm, and CMP reduces calibration error via Brier score minimization. StaRFM surpasses baselines by \texttt{+}3.5\% accuracy and 28\% lower ECE on 19 vision datasets (e.g., ImageNet, Office-Home), achieves +4.2\% DSC over SAM-FT and 4.8mm HD95 on medical benchmarks (e.g., BraTS, ATLAS), and reduces cross-domain gaps by up to 20\%. The framework is plug-and-play, requiring minimal architectural changes. Code and models are available at: \href{https://anonymous.4open.science/r/StaRFM-C0CD/}{\textcolor{blue}{\underline{StaRFM}}}
- Abstract(参考訳): CLIPやSAMといった基礎モデルには、低ショット転送学習による高度なコンピュータビジョンと医療画像があり、限られたデータでCADDを支援する。
しかし、そのデプロイメントには2つの大きな課題がある。
事前トレーニングと後トレーニングのデータ分散が異なる(例えば、中心画像の取得による) \textit{distribution shift} と \textit{confidence misalignment} である。
これらの問題は、視覚言語モデル(例:CLIP)が2次元埋め込みシフト(例:SAM)に悩まされ、医療モデル(例:スキャナ変動)が3次元ドメインシフト(例:スキャナ変動)とボクセルワイドキャリブレーションの必要性に遭遇する。
既存のソリューションはドメイン固有です。
本稿では,FIPとCMPを融合した「textbf{StaRFM}」を提案する。
パッチワイド正規化により3Dに拡張されたFIPを適用し、埋め込みシフトを減らすとともに、ボクセルレベルの予測のために修正されたCMPを用いてセグメンテーションの不確実性を校正する。
PAC-Bayes境界を導出する。
FIPはフィッシャー・ラオ標準による一般化を制御し、CMPはブライアスコア最小化による校正誤差を低減する。
StaRFMは、19のビジョンデータセット(例えば、ImageNet、Office-Home)で、textt{+}3.5\%の精度と28\%のECEでベースラインを超え、SAM-FTで+4.2\%のDSC、医療ベンチマークで4.8mmのHD95を達成し(例えば、BraTS、ATLAS)、クロスドメインギャップを最大20\%削減する。
フレームワークはプラグイン・アンド・プレイであり、最小限のアーキテクチャ変更を必要とする。
コードとモデルは以下の通りである。 \href{https://anonymous.4open.science/r/StaRFM-C0CD/}{\textcolor{blue}{\underline{StaRFM}}}
関連論文リスト
- Uniformity First: Uniformity-aware Test-time Adaptation of Vision-language Models against Image Corruption [4.792851066169872]
ビジョン言語モデルは、トレーニングモデルと大きなギャップを持つデータセットに直面すると、依然として苦しむことが分かっています。
本稿では,センサ劣化に頑健なモデルを実現するために,情報バランスTTA (UnInfo) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-19T09:47:46Z) - We Care Each Pixel: Calibrating on Medical Segmentation Model [12.592472854721333]
pixel-wise expected Error (pECE) は、画素レベルでの誤校正を測定する新しい指標である。
また, キャリブレーション損失の計算に先立って, 地中トラスマスクに形態的操作を適用する形態的適応戦略を導入する。
本手法はセグメンテーション性能を向上するだけでなく,キャリブレーション品質も向上し,信頼性の高い推定値が得られる。
論文 参考訳(メタデータ) (2025-03-07T03:06:03Z) - Confidence-calibrated covariate shift correction for few-shot classification in Vision-Language Models [2.6061534894032907]
我々は,共変量シフトを緩和するためのフィッシャー情報ペナルティと,誤分類例における過度な信頼を減らすための信頼ミスアライメントペナルティ(CMP)を組み合わせた統一的アプローチであるtextbfConfidence-Calibrated Covariate Shift Correction (CalShift)を導入する。
CalShiftはモデルのキャリブレーションを大幅に改善し、期待エラー(ECE)を最大5.82%削減する。
この結果から,CalShiftは実世界のアプリケーション向けに,堅牢で信頼性の高い低ショットビジョン言語システムを構築するための有望な戦略であることを強調した。
論文 参考訳(メタデータ) (2025-02-11T10:10:15Z) - Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models [0.0]
信頼度校正は、基礎モデルに基づく現実世界の意思決定システムにおいて、新たな課題である。
本研究では,微調整の際,不正分類を罰する損失目標に組み込んだペナルティを提案する。
CMP(textitconfidence misalignment penalty)と呼ぶ。
論文 参考訳(メタデータ) (2025-01-29T11:54:37Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Average Calibration Error: A Differentiable Loss for Improved Reliability in Image Segmentation [15.802559423418804]
本稿では,L1平均キャリブレーション誤差(mL1-ACE)を新たな補助損失関数として用いて,セグメンテーション品質を損なうことなく画素ワイドキャリブレーションを改善することを提案する。
この損失は、ハード・ビンニングを用いても直接微分可能であり、近似的ではあるが微分可能なサロゲートやソフト・ビンニングのアプローチを回避できることが示される。
論文 参考訳(メタデータ) (2024-03-11T14:31:03Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - On the Calibration of Human Pose Estimation [39.15814732856338]
Calibrated ConfidenceNet (CCNet)は、市販のポーズ推定フレームワークでAPを最大1.4%改善する軽量なポストホック追加である。
メッシュリカバリの下流タスクに適用されたCCNetは、3Dキーポイントエラーを1.0mm削減する。
論文 参考訳(メタデータ) (2023-11-28T09:31:09Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。
既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。
本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:52:45Z) - Pseudo Label-Guided Model Inversion Attack via Conditional Generative
Adversarial Network [102.21368201494909]
モデル反転(MI)攻撃はプライバシーに対する懸念を高めている。
近年のMI攻撃では,探索空間を狭める前にGAN(Generative Adversarial Network)を画像として活用している。
我々は条件付きGAN(cGAN)による擬似ラベル誘導MI(PLG-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2023-02-20T07:29:34Z) - DOMINO: Domain-aware Model Calibration in Medical Image Segmentation [51.346121016559024]
現代のディープニューラルネットワークはキャリブレーションが不十分で、信頼性と信頼性を損なう。
本稿では,クラスラベル間のセマンティック・コンフューザビリティと階層的類似性を利用したドメイン認識モデルキャリブレーション手法であるDOMINOを提案する。
その結果,DOMINOを校正したディープニューラルネットワークは,頭部画像分割における非校正モデルや最先端形態計測法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-13T15:31:52Z) - A Stitch in Time Saves Nine: A Train-Time Regularizing Loss for Improved
Neural Network Calibration [12.449806152650657]
信頼性と精度の多クラス差(MDCA)という,新たな補助的損失関数を提案する。
MDCAを用いたトレーニングは,画像分類やセグメンテーションタスクにおける予測誤差(ECE)と静的誤差(SCE)の観点から,より良い校正モデルをもたらすことを示す。
論文 参考訳(メタデータ) (2022-03-25T18:02:13Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - A Weakly Supervised Consistency-based Learning Method for COVID-19
Segmentation in CT Images [11.778195406694206]
コロナウイルス病2019(COVID-19)は世界中で活発に広がり、現実的な健康危機を引き起こしている。
トモグラフィ(CT)画像中のCOVID-19を自動的に検出するシステムは、病気の重症度を定量化するのに役立つ。
我々は、CT画像上の各感染領域に1ピクセルのポイントアノテーションを要求することで、これらのラベル付けの課題に対処する。
論文 参考訳(メタデータ) (2020-07-04T20:41:17Z) - Collaborative Boundary-aware Context Encoding Networks for Error Map
Prediction [65.44752447868626]
本稿では,AEP-Net と呼ばれる協調的コンテキスト符号化ネットワークを提案する。
具体的には、画像とマスクのより優れた特徴融合のための協調的な特徴変換分岐と、エラー領域の正確な局所化を提案する。
AEP-Netはエラー予測タスクの平均DSCが0.8358,0.8164であり、ピアソン相関係数が0.9873である。
論文 参考訳(メタデータ) (2020-06-25T12:42:01Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。