論文の概要: Adapting Contrastive Language-Image Pretrained (CLIP) Models for
Out-of-Distribution Detection
- arxiv url: http://arxiv.org/abs/2303.05828v2
- Date: Thu, 9 Nov 2023 10:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 18:36:12.415209
- Title: Adapting Contrastive Language-Image Pretrained (CLIP) Models for
Out-of-Distribution Detection
- Title(参考訳): 分散検出のためのコントラスト言語画像事前学習(clip)モデルの適用
- Authors: Nikolas Adaloglou and Felix Michels and Tim Kaiser and Markus Kollmann
- Abstract要約: 本研究では,視覚的アウトオブディストリビューション(OOD)検出のための事前訓練された特徴抽出器に関する総合的研究を行った。
我々は,OOD検出のための視覚言語モデルに適応するスタイリット擬似ラベル探索(PLP)と呼ばれる,シンプルでスケーラブルな新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.597617022056624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comprehensive experimental study on pretrained feature
extractors for visual out-of-distribution (OOD) detection, focusing on adapting
contrastive language-image pretrained (CLIP) models. Without fine-tuning on the
training data, we are able to establish a positive correlation ($R^2\geq0.92$)
between in-distribution classification and unsupervised OOD detection for CLIP
models in $4$ benchmarks. We further propose a new simple and scalable method
called \textit{pseudo-label probing} (PLP) that adapts vision-language models
for OOD detection. Given a set of label names of the training set, PLP trains a
linear layer using the pseudo-labels derived from the text encoder of CLIP. To
test the OOD detection robustness of pretrained models, we develop a novel
feature-based adversarial OOD data manipulation approach to create adversarial
samples. Intriguingly, we show that (i) PLP outperforms the previous
state-of-the-art \citep{ming2022mcm} on all $5$ large-scale benchmarks based on
ImageNet, specifically by an average AUROC gain of 3.4\% using the largest CLIP
model (ViT-G), (ii) we show that linear probing outperforms fine-tuning by
large margins for CLIP architectures (i.e. CLIP ViT-H achieves a mean gain of
7.3\% AUROC on average on all ImageNet-based benchmarks), and (iii)
billion-parameter CLIP models still fail at detecting adversarially manipulated
OOD images. The code and adversarially created datasets will be made publicly
available.
- Abstract(参考訳): 本稿では,コントラスト言語イメージプリトレーニング(clip)モデルの適用に焦点をあてた,ビジュアル・アウト・オブ・ディストリビューション(ood)検出のための事前学習特徴抽出器に関する包括的実験を行った。
トレーニングデータを微調整することなく、4ドルのベンチマークでCLIPモデルの分布内分類と教師なしOOD検出の正の相関(R^2\geq0.92$)を確立することができる。
さらに,OOD検出に視覚言語モデルを適用するための,新しい単純でスケーラブルな手法である「textit{pseudo-label probing} (PLP)」を提案する。
トレーニングセットのラベル名のセットが与えられると、plpはクリップのテキストエンコーダから派生した擬似ラベルを使用してリニア層を訓練する。
事前訓練されたモデルのOOD検出堅牢性をテストするために,新しい特徴量に基づくOODデータ操作手法を開発した。
興味深いことに
(i)plpは,imagenetに基づく5ドルの大規模ベンチマーク,特に最大クリップモデル (vit-g) を用いた平均 auroc 利得 3.4\% において,それまでの最先端の \citep{ming2022mcm} を上回っている。
(II) 線形探索はCLIPアーキテクチャ(CLIP ViT-H)における大きなマージンによる微調整よりも優れており、画像Netベースのベンチマークでは平均7.3\%のAUROCが得られる。
3)10億パラメータCLIPモデルでは,OOD画像の逆操作は検出できない。
コードと逆生成されたデータセットが公開される。
関連論文リスト
- LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies [22.100031612580356]
我々は,OODデータを必要とせず,内分布(ID)測定によるモデル外分布(OOD)性能の予測に挑戦する。
本稿では,ラベルと予測との階層的距離を予め定義されたクラス階層内で測定するLCA(Lowest Common Ancestor)フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-07-22T21:54:19Z) - SeTAR: Out-of-Distribution Detection with Selective Low-Rank Approximation [5.590633742488972]
ニューラルネットワークの安全なデプロイには、アウト・オブ・ディストリビューション(OOD)検出が不可欠だ。
トレーニング不要なOOD検出手法であるSeTARを提案する。
SeTARは、単純なグリーディ探索アルゴリズムを用いて、モデルの重量行列のポストホックな修正によるOOD検出を強化する。
私たちの研究は、OOD検出のためのスケーラブルで効率的なソリューションを提供し、この分野で新しい最先端を設定します。
論文 参考訳(メタデータ) (2024-06-18T13:55:13Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - A framework for benchmarking class-out-of-distribution detection and its
application to ImageNet [15.929238800072195]
本稿では,画像分類器のクラスアウト・オブ・ディストリビューション・インスタンス検出能力のベンチマークを行う新しいフレームワークを提案する。
我々はこの手法をImageNetに適用し、ImageNet-1k分類器として525の事前訓練と公開を行った。
論文 参考訳(メタデータ) (2023-02-23T09:57:48Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - $k$Folden: $k$-Fold Ensemble for Out-Of-Distribution Detection [31.10536251430344]
Out-of-Distribution(OOD)検出は自然言語処理(NLP)において重要な問題である
我々は,外部データを用いることなく,トレーニング中のOOD検出の動作を模倣するフレームワークである$k$Foldenを提案する。
論文 参考訳(メタデータ) (2021-08-29T01:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。