Fugu-MT 論文翻訳(概要): Contrastive Language-Image Pretrained (CLIP) Models are Powerful Out-of-Distribution Detectors

論文の概要: Contrastive Language-Image Pretrained (CLIP) Models are Powerful Out-of-Distribution Detectors

arxiv url: http://arxiv.org/abs/2303.05828v1
Date: Fri, 10 Mar 2023 10:02:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-13 15:20:35.022959
Title: Contrastive Language-Image Pretrained (CLIP) Models are Powerful Out-of-Distribution Detectors
Title（参考訳）: コントラスト型言語画像事前学習モデル(clip)は強力な分布外検出器である
Authors: Felix Michels and Nikolas Adaloglou and Tim Kaiser and Markus Kollmann
Abstract要約: 本稿では,視覚的アウト・オブ・ディストリビューション検出のための事前訓練された特徴抽出器に関する総合的研究を行う。対照的な言語画像事前学習モデルでは,最先端の教師なしアウト・オブ・ディストリビューション性能が得られることがわかった。視覚異常検出のための新しいベンチマークが実験に基づいて必要かどうかを論じる。
参考スコア（独自算出の注目度）: 2.446948464551684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a comprehensive experimental study on pretrained feature extractors for visual out-of-distribution (OOD) detection. We examine several setups, based on the availability of labels or image captions and using different combinations of in- and out-distributions. Intriguingly, we find that (i) contrastive language-image pretrained models achieve state-of-the-art unsupervised out-of-distribution performance using nearest neighbors feature similarity as the OOD detection score, (ii) supervised state-of-the-art OOD detection performance can be obtained without in-distribution fine-tuning, (iii) even top-performing billion-scale vision transformers trained with natural language supervision fail at detecting adversarially manipulated OOD images. Finally, we argue whether new benchmarks for visual anomaly detection are needed based on our experiments. Using the largest publicly available vision transformer, we achieve state-of-the-art performance across all $18$ reported OOD benchmarks, including an AUROC of 87.6\% (9.2\% gain, unsupervised) and 97.4\% (1.2\% gain, supervised) for the challenging task of CIFAR100 $\rightarrow$ CIFAR10 OOD detection. The code will be open-sourced.
Abstract（参考訳）: 本稿では,視覚分布検出のための事前学習特徴抽出器に関する包括的実験を行った。ラベルや画像キャプションの可利用性や,内分布と外分布の組み合わせの違いから,いくつかの設定について検討した。興味深いことに (i)ood検出スコアと類似した類似性を用いたコントラスト型言語イメージ事前学習モデルによる非教師なし分散性能の実現 (II)OOD検出性能の制御は、微調整なしで行うことができる。 (iii)自然言語で訓練された10億規模の視覚トランスフォーマーでさえ、逆操作されたood画像の検出に失敗している。最後に,視覚異常検出のための新しいベンチマークが実験に基づいて必要かどうかを議論する。 CIFAR100$\rightarrow$ CIFAR10 OOD検出の課題に対して、AUROCの87.6\%(9.2\%ゲイン、非教師なし)と97.4\%(1.2\%ゲイン、監督なし)を含む18ドルのOODベンチマークで最先端のパフォーマンスを達成する。コードはオープンソース化される。

関連論文リスト

ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。 ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。 ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文参考訳（メタデータ） (2025-02-21T18:59:57Z)
CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance [14.849943391904882]
CLIP-PING: Proximus Intrinsic Nebors Guidanceを用いたコントラスト言語画像事前学習を提案する。 CLIP-Pingブートストラップは任意の事前訓練エンコーダから抽出した単調な特徴を抽出し、近位近傍サンプルの本質的なガイダンスを得る。実験の結果、CLIP-PINGはゼロショットの一般化とクロスモーダル検索タスクにおいて、明らかに仲間を上回っていることがわかった。
論文参考訳（メタデータ） (2024-12-05T04:58:28Z)
LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies [22.100031612580356]
我々は,OODデータを必要とせず,内分布(ID)測定によるモデル外分布(OOD)性能の予測に挑戦する。本稿では,ラベルと予測との階層的距離を予め定義されたクラス階層内で測定するLCA(Lowest Common Ancestor)フレームワークを紹介する。
論文参考訳（メタデータ） (2024-07-22T21:54:19Z)
SeTAR: Out-of-Distribution Detection with Selective Low-Rank Approximation [5.590633742488972]
ニューラルネットワークの安全なデプロイには、アウト・オブ・ディストリビューション(OOD)検出が不可欠だ。トレーニング不要なOOD検出手法であるSeTARを提案する。 SeTARは、単純なグリーディ探索アルゴリズムを用いて、モデルの重量行列のポストホックな修正によるOOD検出を強化する。私たちの研究は、OOD検出のためのスケーラブルで効率的なソリューションを提供し、この分野で新しい最先端を設定します。
論文参考訳（メタデータ） (2024-06-18T13:55:13Z)
Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。 EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。 EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文参考訳（メタデータ） (2024-06-02T17:09:48Z)
Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文参考訳（メタデータ） (2023-11-30T21:11:20Z)
Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文参考訳（メタデータ） (2023-05-09T07:00:17Z)
A framework for benchmarking class-out-of-distribution detection and its application to ImageNet [15.929238800072195]
本稿では,画像分類器のクラスアウト・オブ・ディストリビューション・インスタンス検出能力のベンチマークを行う新しいフレームワークを提案する。我々はこの手法をImageNetに適用し、ImageNet-1k分類器として525の事前訓練と公開を行った。
論文参考訳（メタデータ） (2023-02-23T09:57:48Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。 MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文参考訳（メタデータ） (2022-06-07T02:03:06Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
To be Critical: Self-Calibrated Weakly Supervised Learning for Salient Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文参考訳（メタデータ） (2021-09-04T02:45:22Z)
$k$Folden: $k$-Fold Ensemble for Out-Of-Distribution Detection [31.10536251430344]
Out-of-Distribution(OOD)検出は自然言語処理(NLP)において重要な問題である我々は,外部データを用いることなく,トレーニング中のOOD検出の動作を模倣するフレームワークである$k$Foldenを提案する。
論文参考訳（メタデータ） (2021-08-29T01:52:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。