論文の概要: Contrast-Aware Calibration for Fine-Tuned CLIP: Leveraging Image-Text Alignment
- arxiv url: http://arxiv.org/abs/2501.19060v2
- Date: Mon, 03 Feb 2025 12:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 12:43:32.107459
- Title: Contrast-Aware Calibration for Fine-Tuned CLIP: Leveraging Image-Text Alignment
- Title(参考訳): 微調整CLIPのコントラスト対応校正:画像テキストアライメントの活用
- Authors: Song-Lin Lv, Yu-Yang Chen, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo,
- Abstract要約: 視覚言語モデル(VLM)は例外的な能力を示しており、迅速な微調整によって下流のタスクに迅速に適応することができる。
オープン語彙設定などの非トレーニングクラスを含む分類タスクでは、微調整されたVLMは、しばしば訓練クラスに過度に適合し、信頼スコアと未確認クラスの実際の精度の誤調整をもたらす。
既存の信頼性キャリブレーション手法では、トレーニングパラメータやトレーニングデータセットの特徴の分析が必要であり、対応する列車データなしで未確認のクラスを一般化する能力を制限している。
5つの微調整方法を持つ11のデータセットを含む実験において、CACは、列車と見知らぬクラスの両方において、常に最高の校正効果を達成した。
- 参考スコア(独自算出の注目度): 46.87809309786518
- License:
- Abstract: Vision-language models (VLMs), such as CLIP, have demonstrated exceptional generalization capabilities and can quickly adapt to downstream tasks through prompt fine-tuning. Unfortunately, in classification tasks involving non-training classes, known as open-vocabulary setting, fine-tuned VLMs often overfit to train classes, resulting in a misalignment between confidence scores and actual accuracy on unseen classes, which significantly undermines their reliability in real-world deployments. Existing confidence calibration methods typically require training parameters or analyzing features from the training dataset, restricting their ability to generalize unseen classes without corresponding train data. Moreover, VLM-specific calibration methods rely solely on text features from train classes as calibration indicators, which inherently limits their ability to calibrate train classes. To address these challenges, we propose an effective multimodal calibration method Contrast-Aware Calibration (CAC). Building on the original CLIP's zero-shot adaptability and the conclusion from empirical analysis that poor intra-class and inter-class discriminative ability on unseen classes is the root cause, we calculate calibration weights based on the contrastive difference between the original and fine-tuned CLIP. This method not only adapts to calibrating unseen classes but also overcomes the limitations of previous VLM calibration methods that could not calibrate train classes. In experiments involving 11 datasets with 5 fine-tuning methods, CAC consistently achieved the best calibration effect on both train and unseen classes without sacrificing accuracy and inference speed.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、例外的な一般化能力を示し、迅速な微調整によって下流タスクに迅速に適応することができる。
不運なことに、オープンボキャブラリセッティングとして知られる非トレーニングクラスを含む分類タスクでは、微調整されたVLMは、しばしばクラスを訓練するのに過度に適しており、信頼度スコアと未確認クラスの実際の正確性の間に不整合が生じ、実際の展開における信頼性を著しく損なう。
既存の信頼性キャリブレーション手法では、トレーニングパラメータやトレーニングデータセットの特徴の分析が必要であり、対応する列車データなしで未確認のクラスを一般化する能力を制限している。
さらに、VLM固有のキャリブレーション法は、列車クラスのキャリブレーション能力を制限するキャリブレーション指標として、列車クラスのテキスト機能のみに依存している。
これらの課題に対処するために,コントラスト・アウェア・キャリブレーション(Contrast-Aware Calibration, CAC)を用いた効果的なマルチモーダルキャリブレーション手法を提案する。
原型CLIPのゼロショット適応性と,未確認クラスにおけるクラス内およびクラス間識別能力の低下が根本原因であることから,原型と微調整CLIPの対比による校正重量の算出を行った。
この方法は、見知らぬクラスの校正に適応するだけでなく、列車の校正ができない以前のVLM校正方法の限界を克服する。
CACは5つの微調整方法を持つ11のデータセットを含む実験において、精度と推論速度を犠牲にすることなく、列車と見知らぬクラスの両方で最高の校正効果を連続的に達成した。
関連論文リスト
- Feature Clipping for Uncertainty Calibration [24.465567005078135]
現代のディープニューラルネットワーク(DNN)は、しばしば過剰な自信に悩まされ、誤校正につながる。
この問題に対処するために,特徴クリッピング(FC)と呼ばれるポストホックキャリブレーション手法を提案する。
FCは特定の閾値に特徴値をクリップし、高い校正誤差サンプルのエントロピーを効果的に増加させる。
論文 参考訳(メタデータ) (2024-10-16T06:44:35Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Scaling of Class-wise Training Losses for Post-hoc Calibration [6.0632746602205865]
そこで本研究では,クラスレベルの学習損失を同期させるキャリブレーション手法を提案する。
複数のクラスワイドスケーリング因子を用いて、クラスワイドトレーニング損失の分散を軽減するために、新しいトレーニング損失を設計する。
種々のポストホックキャリブレーション手法を用いて,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-06-19T14:59:37Z) - Bag of Tricks for In-Distribution Calibration of Pretrained Transformers [8.876196316390493]
プレトレーニング言語モデル(PLM)の信頼性校正に関する実証的研究について述べる。
トレーニングセットに過度に適合したアンサンブルモデルは,サブパーキャリブレーション性能を示す。
校正手法を組み合わせた校正PLM(CALL)を提案する。
論文 参考訳(メタデータ) (2023-02-13T21:11:52Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Unsupervised Calibration under Covariate Shift [92.02278658443166]
ドメインシフト下でのキャリブレーションの問題を導入し、それに対処するための重要サンプリングに基づくアプローチを提案する。
実世界のデータセットと合成データセットの両方において,本手法の有効性を評価し検討した。
論文 参考訳(メタデータ) (2020-06-29T21:50:07Z) - Multi-Class Uncertainty Calibration via Mutual Information
Maximization-based Binning [8.780958735684958]
ポストホック多クラスキャリブレーションは、ディープニューラルネットワーク予測の信頼度推定を提供する一般的なアプローチである。
近年の研究では、広く使われているスケーリング手法がキャリブレーション誤差を過小評価していることが示されている。
類似クラス間で1つのキャリブレータを共有する共有クラスワイド(sCW)キャリブレーション戦略を提案する。
論文 参考訳(メタデータ) (2020-06-23T15:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。