論文の概要: Contrastive Language-Image Pretrained (CLIP) Models are Powerful
Out-of-Distribution Detectors
- arxiv url: http://arxiv.org/abs/2303.05828v1
- Date: Fri, 10 Mar 2023 10:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 15:20:35.022959
- Title: Contrastive Language-Image Pretrained (CLIP) Models are Powerful
Out-of-Distribution Detectors
- Title(参考訳): コントラスト型言語画像事前学習モデル(clip)は強力な分布外検出器である
- Authors: Felix Michels and Nikolas Adaloglou and Tim Kaiser and Markus Kollmann
- Abstract要約: 本稿では,視覚的アウト・オブ・ディストリビューション検出のための事前訓練された特徴抽出器に関する総合的研究を行う。
対照的な言語画像事前学習モデルでは,最先端の教師なしアウト・オブ・ディストリビューション性能が得られることがわかった。
視覚異常検出のための新しいベンチマークが実験に基づいて必要かどうかを論じる。
- 参考スコア(独自算出の注目度): 2.446948464551684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comprehensive experimental study on pretrained feature
extractors for visual out-of-distribution (OOD) detection. We examine several
setups, based on the availability of labels or image captions and using
different combinations of in- and out-distributions. Intriguingly, we find that
(i) contrastive language-image pretrained models achieve state-of-the-art
unsupervised out-of-distribution performance using nearest neighbors feature
similarity as the OOD detection score, (ii) supervised state-of-the-art OOD
detection performance can be obtained without in-distribution fine-tuning,
(iii) even top-performing billion-scale vision transformers trained with
natural language supervision fail at detecting adversarially manipulated OOD
images. Finally, we argue whether new benchmarks for visual anomaly detection
are needed based on our experiments. Using the largest publicly available
vision transformer, we achieve state-of-the-art performance across all $18$
reported OOD benchmarks, including an AUROC of 87.6\% (9.2\% gain,
unsupervised) and 97.4\% (1.2\% gain, supervised) for the challenging task of
CIFAR100 $\rightarrow$ CIFAR10 OOD detection. The code will be open-sourced.
- Abstract(参考訳): 本稿では,視覚分布検出のための事前学習特徴抽出器に関する包括的実験を行った。
ラベルや画像キャプションの可利用性や,内分布と外分布の組み合わせの違いから,いくつかの設定について検討した。
興味深いことに
(i)ood検出スコアと類似した類似性を用いたコントラスト型言語イメージ事前学習モデルによる非教師なし分散性能の実現
(II)OOD検出性能の制御は、微調整なしで行うことができる。
(iii)自然言語で訓練された10億規模の視覚トランスフォーマーでさえ、逆操作されたood画像の検出に失敗している。
最後に,視覚異常検出のための新しいベンチマークが実験に基づいて必要かどうかを議論する。
CIFAR100$\rightarrow$ CIFAR10 OOD検出の課題に対して、AUROCの87.6\%(9.2\%ゲイン、非教師なし)と97.4\%(1.2\%ゲイン、監督なし)を含む18ドルのOODベンチマークで最先端のパフォーマンスを達成する。
コードはオープンソース化される。
関連論文リスト
- Unsupervised Prototype Adapter for Vision-Language Models [29.516767588241724]
我々はUnsupervised Prototype Adapter (UP-Adapter)と呼ばれる視覚言語モデルのための教師なし微調整アプローチを設計する。
具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。
微調整後、プロトタイプモデル予測と元のCLIPの予測を残りの接続で組み合わせて下流認識タスクを実行する。
論文 参考訳(メタデータ) (2023-08-22T15:28:49Z) - Out-of-Distributed Semantic Pruning for Robust Semi-Supervised Learning [17.409939628100517]
我々は,OODセマンティック・プルーニング(OSP)と呼ばれる統合フレームワークを提案する。
OSPは、ID分類の精度を13.7%、TinyImageNetデータセットのOOD検出のAUROCの5.9%に上回っている。
論文 参考訳(メタデータ) (2023-05-29T15:37:07Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - A framework for benchmarking class-out-of-distribution detection and its
application to ImageNet [15.929238800072195]
本稿では,画像分類器のクラスアウト・オブ・ディストリビューション・インスタンス検出能力のベンチマークを行う新しいフレームワークを提案する。
我々はこの手法をImageNetに適用し、ImageNet-1k分類器として525の事前訓練と公開を行った。
論文 参考訳(メタデータ) (2023-02-23T09:57:48Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - $k$Folden: $k$-Fold Ensemble for Out-Of-Distribution Detection [31.10536251430344]
Out-of-Distribution(OOD)検出は自然言語処理(NLP)において重要な問題である
我々は,外部データを用いることなく,トレーニング中のOOD検出の動作を模倣するフレームワークである$k$Foldenを提案する。
論文 参考訳(メタデータ) (2021-08-29T01:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。