Fugu-MT 論文翻訳(概要): Calibrated and Robust Foundation Models for Vision-Language and Medical Image Tasks Under Distribution Shift

論文の概要: Calibrated and Robust Foundation Models for Vision-Language and Medical Image Tasks Under Distribution Shift

arxiv url: http://arxiv.org/abs/2507.09222v1
Date: Sat, 12 Jul 2025 09:39:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-15 18:48:22.766081
Title: Calibrated and Robust Foundation Models for Vision-Language and Medical Image Tasks Under Distribution Shift
Title（参考訳）: 分布シフト下における視覚・言語・医用画像タスクの校正・ロバスト基礎モデル
Authors: Behraj Khan, Tahir Syed,
Abstract要約: CLIPやSAMといったファンデーションモデルは、ローショットトランスファー学習を通じてコンピュータビジョンと医療イメージングを変革した。両課題に対処する統合フレームワークである textitStaRFM を提案する。 texttt+3.5%の精度と、19の視覚データセット上でのECEの28%低下のような一貫したパフォーマンスを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Foundation models like CLIP and SAM have transformed computer vision and medical imaging via low-shot transfer learning. However, deployment of these models hindered by two key challenges: \textit{distribution shift} between training and test data, and \textit{confidence misalignment} that leads to overconfident incorrect predictions. These issues manifest differently in vision-language classification and medical segmentation tasks, yet existing solutions remain domain-specific. We propose \textit{StaRFM}, a unified framework addressing both challenges. It introduces a Fisher information penalty (FIP), extended to 3D medical data via patch-wise regularization, to reduce covariate shift in CLIP and SAM embeddings. Additionally, a confidence misalignment penalty (CMP), reformulated for voxel-level predictions, calibrates uncertainty in segmentation tasks. We theoretically derive PAC-Bayes bounds showing FIP controls generalization via the Fisher-Rao norm, while CMP minimizes calibration error through Brier score optimization. StaRFM shows consistent performance like \texttt{+}3.5\% accuracy and 28\% lower ECE on 19 vision datasets (e.g., ImageNet, Office-Home), 84.7\% DSC and 4.8mm HD95 in medical segmentation (e.g., BraTS, ATLAS), and 40\% lower cross-domain performance gap compared to prior benchmarking methods. The framework is plug-and-play, requiring minimal architectural changes for seamless integration with foundation models. Code and models will be released at https://anonymous.4open.science/r/StaRFM-C0CD/README.md
Abstract（参考訳）: CLIPやSAMといったファンデーションモデルは、ローショットトランスファー学習を通じてコンピュータビジョンと医療イメージングを変革した。しかし、これらのモデルの展開は、トレーニングデータとテストデータの間の \textit{distribution shift} と、過度に信頼できない誤った予測につながる \textit{confidence misalignment} という2つの大きな課題によって妨げられた。これらの問題は視覚言語分類や医学的セグメンテーションのタスクでは異なるが、既存のソリューションはドメイン固有のままである。両課題に対処する統合フレームワークである \textit{StaRFM} を提案する。パッチワイドな正規化を通じて3D医療データに拡張されたフィッシャー情報ペナルティ(FIP)を導入し、CLIPとSAMの埋め込みにおける共変量のシフトを減らす。さらに、ボクセルレベルの予測のために修正された信頼の不一致ペナルティ(CMP)は、セグメンテーションタスクの不確実性を校正する。理論的には、FIP制御の一般化を示すPAC-Bayes境界をFisher-Raoノルムで導出する一方、CMPはBrierスコア最適化による校正誤差を最小化する。 StaRFMは、19の視覚データセット(例えば、ImageNet、Office-Home)における‘texttt{+}3.5\%精度と28\%低いECE、医療セグメント化(例えば、BraTS、ATLAS)における84.7\%のDSCと4.8mmのHD95、以前のベンチマーク手法と比較して40\%低いクロスドメインパフォーマンスギャップなど、一貫したパフォーマンスを示している。このフレームワークはプラグイン・アンド・プレイであり、基礎モデルとのシームレスな統合のために最小限のアーキテクチャ変更を必要とする。コードとモデルはhttps://anonymous.4open.science/r/StaRFM-C0CD/README.mdで公開される。

関連論文リスト

LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs [61.06744611795341]
医用視覚言語モデル(VLM)は医用画像の強力なゼロショット認識器である。本研究では,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ(texttttextbfLATA,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ)を提案する。 texttttextbfLATAは交換性を損なうことなくゼロショット予測をシャープにする。
論文参考訳（メタデータ） (2026-02-19T16:45:38Z)
A3-TTA: Adaptive Anchor Alignment Test-Time Adaptation for Image Segmentation [17.122762119608144]
テスト時間適応(TTA)は、ドメインシフト下でイメージセグメンテーションモデルをデプロイするための実用的なソリューションを提供する。我々は,アンカーガイドによる監視を通じて信頼性の高い擬似ラベルを構築するフレームワークである textbfA3-TTA を提案する。 A3-TTAはソースモデルと比較して平均Diceスコアを10.40から17.68ポイント改善する。
論文参考訳（メタデータ） (2026-02-03T09:18:11Z)
Not Quite Anything: Overcoming SAMs Limitations for 3D Medical Imaging [0.0]
SAMやSAM-2のような基礎的なセグメンテーションモデルは、自然画像ではうまく機能するが、脳MRIでは困難である。本稿では,基礎モデルの出力を付加的な入力チャネルとして扱う合成代替手法を提案する。従来MRIセグメンテーションで訓練されていた軽量な3次元U-Netを用いてSAM-2プロンプトを生成する。
論文参考訳（メタデータ） (2025-11-22T05:29:27Z)
MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples [8.323617762880533]
ゼロショット異常分類(AC/AS)のためのMutual Scoring framework(MuSc-V2)を提案する。私たちのフレームワークは、完全なデータセットと、一貫して堅牢なパフォーマンスを持つ小さなサブセットの両方で柔軟に機能します。新たなフレームワークの助けを借りて、MuSc-V2は大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-11-13T07:47:37Z)
Uniformity First: Uniformity-aware Test-time Adaptation of Vision-language Models against Image Corruption [4.792851066169872]
ビジョン言語モデルは、トレーニングモデルと大きなギャップを持つデータセットに直面すると、依然として苦しむことが分かっています。本稿では,センサ劣化に頑健なモデルを実現するために,情報バランスTTA (UnInfo) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-19T09:47:46Z)
We Care Each Pixel: Calibrating on Medical Segmentation Model [12.592472854721333]
pixel-wise expected Error (pECE) は、画素レベルでの誤校正を測定する新しい指標である。また, キャリブレーション損失の計算に先立って, 地中トラスマスクに形態的操作を適用する形態的適応戦略を導入する。本手法はセグメンテーション性能を向上するだけでなく,キャリブレーション品質も向上し,信頼性の高い推定値が得られる。
論文参考訳（メタデータ） (2025-03-07T03:06:03Z)
Confidence-calibrated covariate shift correction for few-shot classification in Vision-Language Models [2.6061534894032907]
我々は,共変量シフトを緩和するためのフィッシャー情報ペナルティと,誤分類例における過度な信頼を減らすための信頼ミスアライメントペナルティ(CMP)を組み合わせた統一的アプローチであるtextbfConfidence-Calibrated Covariate Shift Correction (CalShift)を導入する。 CalShiftはモデルのキャリブレーションを大幅に改善し、期待エラー(ECE)を最大5.82%削減する。この結果から,CalShiftは実世界のアプリケーション向けに,堅牢で信頼性の高い低ショットビジョン言語システムを構築するための有望な戦略であることを強調した。
論文参考訳（メタデータ） (2025-02-11T10:10:15Z)
Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models [0.0]
信頼度校正は、基礎モデルに基づく現実世界の意思決定システムにおいて、新たな課題である。本研究では,微調整の際,不正分類を罰する損失目標に組み込んだペナルティを提案する。 CMP(textitconfidence misalignment penalty)と呼ぶ。
論文参考訳（メタデータ） (2025-01-29T11:54:37Z)
Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文参考訳（メタデータ） (2024-07-16T06:38:49Z)
Average Calibration Error: A Differentiable Loss for Improved Reliability in Image Segmentation [15.802559423418804]
本稿では,L1平均キャリブレーション誤差(mL1-ACE)を新たな補助損失関数として用いて,セグメンテーション品質を損なうことなく画素ワイドキャリブレーションを改善することを提案する。この損失は、ハード・ビンニングを用いても直接微分可能であり、近似的ではあるが微分可能なサロゲートやソフト・ビンニングのアプローチを回避できることが示される。
論文参考訳（メタデータ） (2024-03-11T14:31:03Z)
Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文参考訳（メタデータ） (2024-03-01T15:14:47Z)
On the Calibration of Human Pose Estimation [39.15814732856338]
Calibrated ConfidenceNet (CCNet)は、市販のポーズ推定フレームワークでAPを最大1.4%改善する軽量なポストホック追加である。メッシュリカバリの下流タスクに適用されたCCNetは、3Dキーポイントエラーを1.0mm削減する。
論文参考訳（メタデータ） (2023-11-28T09:31:09Z)
Bridging Precision and Confidence: A Train-Time Loss for Calibrating Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文参考訳（メタデータ） (2023-03-25T08:56:21Z)
Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文参考訳（メタデータ） (2023-03-16T17:52:45Z)
Pseudo Label-Guided Model Inversion Attack via Conditional Generative Adversarial Network [102.21368201494909]
モデル反転(MI)攻撃はプライバシーに対する懸念を高めている。近年のMI攻撃では,探索空間を狭める前にGAN(Generative Adversarial Network)を画像として活用している。我々は条件付きGAN(cGAN)による擬似ラベル誘導MI(PLG-MI)攻撃を提案する。
論文参考訳（メタデータ） (2023-02-20T07:29:34Z)
DOMINO: Domain-aware Model Calibration in Medical Image Segmentation [51.346121016559024]
現代のディープニューラルネットワークはキャリブレーションが不十分で、信頼性と信頼性を損なう。本稿では,クラスラベル間のセマンティック・コンフューザビリティと階層的類似性を利用したドメイン認識モデルキャリブレーション手法であるDOMINOを提案する。その結果,DOMINOを校正したディープニューラルネットワークは,頭部画像分割における非校正モデルや最先端形態計測法よりも優れていた。
論文参考訳（メタデータ） (2022-09-13T15:31:52Z)
A Stitch in Time Saves Nine: A Train-Time Regularizing Loss for Improved Neural Network Calibration [12.449806152650657]
信頼性と精度の多クラス差(MDCA)という,新たな補助的損失関数を提案する。 MDCAを用いたトレーニングは,画像分類やセグメンテーションタスクにおける予測誤差(ECE)と静的誤差(SCE)の観点から,より良い校正モデルをもたらすことを示す。
論文参考訳（メタデータ） (2022-03-25T18:02:13Z)
Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文参考訳（メタデータ） (2021-10-06T08:45:03Z)
Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文参考訳（メタデータ） (2021-07-08T15:19:36Z)
A Weakly Supervised Consistency-based Learning Method for COVID-19 Segmentation in CT Images [11.778195406694206]
コロナウイルス病2019(COVID-19)は世界中で活発に広がり、現実的な健康危機を引き起こしている。トモグラフィ(CT)画像中のCOVID-19を自動的に検出するシステムは、病気の重症度を定量化するのに役立つ。我々は、CT画像上の各感染領域に1ピクセルのポイントアノテーションを要求することで、これらのラベル付けの課題に対処する。
論文参考訳（メタデータ） (2020-07-04T20:41:17Z)
Collaborative Boundary-aware Context Encoding Networks for Error Map Prediction [65.44752447868626]
本稿では,AEP-Net と呼ばれる協調的コンテキスト符号化ネットワークを提案する。具体的には、画像とマスクのより優れた特徴融合のための協調的な特徴変換分岐と、エラー領域の正確な局所化を提案する。 AEP-Netはエラー予測タスクの平均DSCが0.8358,0.8164であり、ピアソン相関係数が0.9873である。
論文参考訳（メタデータ） (2020-06-25T12:42:01Z)
Evaluating Prediction-Time Batch Normalization for Robustness under Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文参考訳（メタデータ） (2020-06-19T05:08:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。