論文の概要: Face Recognition in the age of CLIP & Billion image datasets
- arxiv url: http://arxiv.org/abs/2301.07315v1
- Date: Wed, 18 Jan 2023 05:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:45:48.419523
- Title: Face Recognition in the age of CLIP & Billion image datasets
- Title(参考訳): クリップと10億画像データセットの時代における顔認識
- Authors: Aaditya Bhat, Shrey Jain
- Abstract要約: 種々のCLIPモデルの性能をゼロショット顔認識器として評価する。
また,データ中毒に対するCLIPモデルの堅牢性についても検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP (Contrastive Language-Image Pre-training) models developed by OpenAI
have achieved outstanding results on various image recognition and retrieval
tasks, displaying strong zero-shot performance. This means that they are able
to perform effectively on tasks for which they have not been explicitly
trained. Inspired by the success of OpenAI CLIP, a new publicly available
dataset called LAION-5B was collected which resulted in the development of open
ViT-H/14, ViT-G/14 models that outperform the OpenAI L/14 model. The LAION-5B
dataset also released an approximate nearest neighbor index, with a web
interface for search & subset creation.
In this paper, we evaluate the performance of various CLIP models as
zero-shot face recognizers. Our findings show that CLIP models perform well on
face recognition tasks, but increasing the size of the CLIP model does not
necessarily lead to improved accuracy. Additionally, we investigate the
robustness of CLIP models against data poisoning attacks by testing their
performance on poisoned data. Through this analysis, we aim to understand the
potential consequences and misuse of search engines built using CLIP models,
which could potentially function as unintentional face recognition engines.
- Abstract(参考訳): OpenAIが開発したCLIP(Contrastive Language- Image Pre-training)モデルは、画像認識や検索タスクにおいて優れた成果を上げ、ゼロショット性能が強い。
これは、明示的に訓練されていないタスクで効果的に実行できることを意味する。
OpenAI CLIPの成功に触発されて、LAION-5Bと呼ばれる新しい公開データセットが収集され、OpenAI L/14モデルを上回るオープンViT-H/14、ViT-G/14モデルが開発された。
laion-5bデータセットは、検索とサブセット生成のためのwebインターフェースを備えた、ほぼ近い隣接インデックスもリリースした。
本稿では,様々なCLIPモデルの性能をゼロショット顔認識器として評価する。
以上の結果から,CLIPモデルが顔認識タスクで良好に機能することが示唆されるが,CLIPモデルのサイズが大きくなることで必ずしも精度が向上するとは限らない。
さらに,CLIPモデルによるデータ中毒攻撃に対するロバスト性について検討し,その性能を有毒データで検証した。
この分析を通じて,CLIPモデルを用いて構築された検索エンジンの潜在的な影響と誤用を理解することを目指しており,これは意図しない顔認識エンジンとして機能する可能性がある。
関連論文リスト
- Demystifying CLIP Data [89.2132793325337]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Adapting Contrastive Language-Image Pretrained (CLIP) Models for
Out-of-Distribution Detection [1.597617022056624]
本研究では,視覚的アウトオブディストリビューション(OOD)検出のための事前訓練された特徴抽出器に関する総合的研究を行った。
我々は,OOD検出のための視覚言語モデルに適応するスタイリット擬似ラベル探索(PLP)と呼ばれる,シンプルでスケーラブルな新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T10:02:18Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Understanding Pure CLIP Guidance for Voxel Grid NeRF Models [15.570827675034637]
本研究は, 画像ベースの拡張により, 対角線生成の問題が防止され, 生成結果がどう影響するかを示す。
我々は、ニューラルネットワークが正規化の付加層を提供することを示すために、暗黙のボクセルグリッドモデルを実装し、結果として生成されたオブジェクトの幾何学的構造とコヒーレンシーが向上することを示す。
論文 参考訳(メタデータ) (2022-09-30T01:47:47Z) - Evaluating CLIP: Towards Characterization of Broader Capabilities and
Downstream Implications [8.15254368157658]
私たちはCLIPを分析し、そのようなモデルがもたらす課題をいくつか強調します。
CLIPは、従来のコンピュータビジョンシステムに見られるバイアスを継承できる。
これらの結果は、成長する仕事の体に「ベター」モデルの概念を変えることを要求する証拠となる。
論文 参考訳(メタデータ) (2021-08-05T19:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。