論文の概要: Robust Calibration of Large Vision-Language Adapters
- arxiv url: http://arxiv.org/abs/2407.13588v1
- Date: Thu, 18 Jul 2024 15:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:51:11.022987
- Title: Robust Calibration of Large Vision-Language Adapters
- Title(参考訳): 大型ビジョンランゲージアダプタのロバスト校正
- Authors: Balamurali Murugesan, Julio Silva-Rodriguez, Ismail Ben Ayed, Jose Dolz,
- Abstract要約: 本稿では,CLIPに基づくモデル適応における誤校正の重大な問題に対処する。
実験により,0ショットベースラインのキャリブレーション能力を大幅に低下させる,Adapters,Prompt Learning,Test-Time Adaptationなどの一般的なCLIP適応アプローチを実証した。
これらの観測により、各試料の対数範囲をゼロショット予測ロジットに拡大することにより、誤校正を緩和するための単純でモデルに依存しない解が提示される。
- 参考スコア(独自算出の注目度): 17.583536041845402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the critical issue of miscalibration in CLIP-based model adaptation, particularly in the challenging scenario of out-of-distribution (OOD) samples, which has been overlooked in the existing literature on CLIP adaptation. We empirically demonstrate that popular CLIP adaptation approaches, such as Adapters, Prompt Learning, and Test-Time Adaptation, substantially degrade the calibration capabilities of the zero-shot baseline in the presence of distributional drift. We identify the increase in logit ranges as the underlying cause of miscalibration of CLIP adaptation methods, contrasting with previous work on calibrating fully-supervised models. Motivated by these observations, we present a simple and model-agnostic solution to mitigate miscalibration, by scaling the logit range of each sample to its zero-shot prediction logits. We explore three different alternatives to achieve this, which can be either integrated during adaptation or directly used at inference time. Comprehensive experiments on popular OOD classification benchmarks demonstrate the effectiveness of the proposed approaches in mitigating miscalibration while maintaining discriminative performance, whose improvements are consistent across the three families of these increasingly popular approaches. The code is publicly available at: https://github.com/Bala93/CLIPCalib
- Abstract(参考訳): 本稿では、CLIPモデル適応における誤校正の重大な問題、特に既存のCLIP適応に関する文献で見過ごされているOOD(Out-of-distriion)サンプルの難解なシナリオについて論じる。
実験により,適応器,プロンプト学習,テスト時間適応などの一般的なCLIP適応手法は,分布ドリフトの存在下でゼロショットベースラインの校正能力を大幅に低下させることを示した。
CLIP適応手法の誤校正の根本原因として,ロジット範囲の増加が確認された。
これらの観測により、各試料の対数範囲をゼロショット予測ロジットに拡大することにより、誤校正を緩和するための単純でモデルに依存しない解が提示される。
これを実現するために,適応時に統合されるか,推論時に直接使用される3つの選択肢を探索する。
一般的なOOD分類ベンチマークに関する総合的な実験は、これらの人気の高いアプローチの3つのファミリー間で改善が整った差別的性能を維持しながら、誤校正を緩和する提案手法の有効性を実証している。
コードは、https://github.com/Bala93/CLIPCalibで公開されている。
関連論文リスト
- BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations [19.800907485589402]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。
微調整CLIPのための軽量表現校正法を提案する。
論文 参考訳(メタデータ) (2024-03-12T01:47:17Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Calibration of Time-Series Forecasting: Detecting and Adapting Context-Driven Distribution Shift [28.73747033245012]
本稿では,コンテキスト駆動分布シフトの検出と適応のための普遍的キャリブレーション手法を提案する。
レジデンシャルベースCDS検出器(Residual-based CDS detector)またはリコンディショナー(Reconditionor)と呼ばれる新しいCDS検出器は、モデルの脆弱性をCDSに定量化する。
高いリコンディショナースコアは、重度の感受性を示し、したがってモデル適応を必要とする。
論文 参考訳(メタデータ) (2023-10-23T11:58:01Z) - Enabling Calibration In The Zero-Shot Inference of Large Vision-Language
Models [58.720142291102135]
プロンプト、データセット、アーキテクチャといった関連する変数のキャリブレーションを測定し、CLIPによるゼロショット推論が誤校正されていることを見つけます。
学習した1つの温度は、推論データセットにまたがって特定のCLIPモデルごとに一般化され、選択が促される。
論文 参考訳(メタデータ) (2023-03-11T17:14:04Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Modular Conformal Calibration [80.33410096908872]
回帰における再校正のためのアルゴリズムを多種多様なクラスで導入する。
このフレームワークは、任意の回帰モデルをキャリブレーションされた確率モデルに変換することを可能にする。
我々は17の回帰データセットに対するMCCの実証的研究を行った。
論文 参考訳(メタデータ) (2022-06-23T03:25:23Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。