論文の概要: From Theory to Decision Rule: Calibrating the Noisy-Label Crossover for Vision-Language Model Weak Supervision Across Three Medical-Imaging Benchmarks
- arxiv url: http://arxiv.org/abs/2605.24771v1
- Date: Sat, 23 May 2026 23:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.423974
- Title: From Theory to Decision Rule: Calibrating the Noisy-Label Crossover for Vision-Language Model Weak Supervision Across Three Medical-Imaging Benchmarks
- Title(参考訳): 理論から決定規則へ:3つの医用画像ベンチマークにおけるビジョンランゲージモデル弱スーパービジョンのためのノイズ-ラベルクロスオーバーの校正
- Authors: Bruce Changlong Xu, Jose James, Alexander Ryu,
- Abstract要約: 基礎モデル弱いラベルに対するベンチマークキャリブレーションを提供する。
理論によって予測される交差は、PCAMではng100、ISICでは20-50、NIH-CXRでは250-500である。
NIH-CXR上の構造付きvs-ランダムノイズ符号フリップは、境界のレートのみの定式化が不完全であることを示す。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical noisy-label theory predicts that downstream performance under weak supervision is bounded above by the labeler's accuracy, implying a sharp crossover: once a gold-trained classifier matches the labeler, weak labels stop helping and start hurting. The prediction is theoretical; what is missing is a benchmark calibration that turns it into an instance-level statement for modern foundation-model labelers. We provide such a calibration for BiomedCLIP-generated weak labels on three medical-imaging benchmarks (PCAM, ISIC, NIH-CXR) and six downstream architectures spanning an 11x parameter range. The crossover predicted by theory appears at ng~100 on PCAM, 20-50 on ISIC, and 250-500 on NIH-CXR; weak labels above the crossover degrade AUC by up to -0.10. The location is architecture-invariant for four of five pretrained architectures, and a within-family DenseNet sweep (2.5x parameters, identical pretraining) supports the view that the labeler, not the student, is the dominant constraint. The calibration in turn produces a decision rule operable from 10-20 gold labels: compare gold-only AUC to VLM accuracy on the user's gold set. A structured-vs-random noise sign flip on NIH-CXR shows that the rate-only formulation of the bound is incomplete and identifies a concrete refinement (label-space projection) that future benchmarks can be designed to test.
- Abstract(参考訳): 古典的なノイズ-ラベル理論は、弱い監督下での下流のパフォーマンスは、ラベルの精度によって上述の精度で境界づけられていることを予測し、急激な交差を示唆している:金の訓練された分類器がラベルにマッチすると、弱いラベルは助けを止め、傷つけ始める。
この予測は理論的であり、欠落しているのがベンチマークキャリブレーションであり、現代のファンデーションモデルラベスターのインスタンスレベルのステートメントになる。
医用画像の3つのベンチマーク(PCAM, ISIC, NIH-CXR)と、11倍のパラメータ範囲にまたがる6つの下流アーキテクチャ上で、BiomedCLIPが生成する弱いラベルを校正する。
PCAMではng~100、ISICでは20~50、NIH-CXRでは250~500と予測されている。
この場所は5つの事前訓練されたアーキテクチャのうち4つのアーキテクチャに不変であり、DenseNetスイープ(2.5倍のパラメータ、同一の事前訓練)は、学生ではなくラスタが支配的な制約である、という見解を支持している。
キャリブレーションは、金のみのAUCとユーザの金セットのVLMの精度を比較して、10~20個の金ラベルから操作可能な決定ルールを生成する。
NIH-CXR上の構造付きvs-ランダムノイズサインフリップは、境界のレートのみの定式化が不完全であることを示し、将来のベンチマークでテストできる具体的な改善(ラベル空間投影)を特定する。
関連論文リスト
- CLiGNet: Clinical Label-Interaction Graph Network for Medical Specialty Classification from Clinical Transcriptions [0.0]
われわれはまず、この方法論上の欠陥を文書化し、40の専門分野にまたがるリークフリーベンチマーク(4966レコード)を確立する。
次に、Bio ClinicalBERTテキストエンコーダと2層グラフ畳み込みネットワークを組み合わせたニューラルネットワークであるCLiGNetを紹介します。
本報告では,一対の専門的混乱,希少なクラス行動,文書長効果,トークンレベルの統合的グラディエント属性を包括的に解析し,臨床NLPシステム展開に対する実用的な洞察を提供する。
論文 参考訳(メタデータ) (2026-03-24T03:30:06Z) - LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs [61.06744611795341]
医用視覚言語モデル(VLM)は医用画像の強力なゼロショット認識器である。
本研究では,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ(texttttextbfLATA,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ)を提案する。
texttttextbfLATAは交換性を損なうことなくゼロショット予測をシャープにする。
論文 参考訳(メタデータ) (2026-02-19T16:45:38Z) - Classifier Calibration at Scale: An Empirical Study of Model-Agnostic Post-Hoc Methods [0.0]
教師付き二項分類における確率的予測を改善するためのモデル非依存のポストホック校正法について検討した。
我々は、線形モデル、SVM、ツリーアンサンブル(CatBoost、XGBoost、LightGBM)を含む21の広く使われている分類器をベンチマークした。
一般的な校正手順,特にプラットスケーリングと等調回帰は,適切なスコアリング性能を体系的に低下させる可能性がある。
論文 参考訳(メタデータ) (2026-01-19T18:23:36Z) - Token-based Decision Criteria Are Suboptimal in In-context Learning [2.2973949268669562]
In-Context Learning (ICL) は通常、手動で選択したラベルトークンの出力確率から分類基準を利用する。
トークン確率を放棄し,LMの最後の隠蔽状態に最も近いセントロイドを使用するHiddenを提案する。
6つのモデルと10の分類データセットに関する実験は、Hiddenが現在のトークンベースベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-24T11:16:26Z) - Retraining with Predicted Hard Labels Provably Increases Model Accuracy [77.71162068832108]
リトレーニングは、与えられた(ノイズの多い)ラベルで最初にトレーニングすることで得られる人口の精度を向上させることができる。
予測ラベルが与えられたラベルにマッチするサンプルを選択的に再トレーニングすることで、余分なプライバシコストを伴わずにラベルDPトレーニングを大幅に改善できることを実証的に示す。
論文 参考訳(メタデータ) (2024-06-17T04:53:47Z) - Conformal Predictor for Improving Zero-shot Text Classification
Efficiency [37.745518881553416]
NLIモデルとNSPモデルの平均推論時間をそれぞれ25.6%、22.2%削減する。
各データセットに適したCPを用いて、NLIベースのモデルとNSPベースのモデルの平均推論時間をそれぞれ25.6%、22.2%削減する。
論文 参考訳(メタデータ) (2022-10-23T05:19:50Z) - Rethinking Pseudo Labels for Semi-Supervised Object Detection [84.697097472401]
物体検出に適した確実な擬似ラベルを導入する。
我々は,クラス不均衡問題を緩和するために,各カテゴリの擬似ラベルと再重み付き損失関数を生成するために使用する閾値を動的に調整する。
提案手法では,COCOのラベル付きデータのみを用いて,教師付きベースラインを最大10%改善する。
論文 参考訳(メタデータ) (2021-06-01T01:32:03Z) - SCRIB: Set-classifier with Class-specific Risk Bounds for Blackbox
Models [48.374678491735665]
クラス固有RIsk境界(SCRIB)を用いたSet-classifierを導入し,この問題に対処する。
SCRIBは、クラス固有の予測リスクを理論的保証で制御するセット分類器を構築する。
脳波(EEG)データによる睡眠ステージング,X線COVID画像分類,心電図(ECG)データに基づく心房細動検出など,いくつかの医学的応用についてSCRIBを検証した。
論文 参考訳(メタデータ) (2021-03-05T21:06:12Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。