論文の概要: Face Recognition in the age of CLIP & Billion image datasets
- arxiv url: http://arxiv.org/abs/2301.07315v1
- Date: Wed, 18 Jan 2023 05:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:45:48.419523
- Title: Face Recognition in the age of CLIP & Billion image datasets
- Title(参考訳): クリップと10億画像データセットの時代における顔認識
- Authors: Aaditya Bhat, Shrey Jain
- Abstract要約: 種々のCLIPモデルの性能をゼロショット顔認識器として評価する。
また,データ中毒に対するCLIPモデルの堅牢性についても検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP (Contrastive Language-Image Pre-training) models developed by OpenAI
have achieved outstanding results on various image recognition and retrieval
tasks, displaying strong zero-shot performance. This means that they are able
to perform effectively on tasks for which they have not been explicitly
trained. Inspired by the success of OpenAI CLIP, a new publicly available
dataset called LAION-5B was collected which resulted in the development of open
ViT-H/14, ViT-G/14 models that outperform the OpenAI L/14 model. The LAION-5B
dataset also released an approximate nearest neighbor index, with a web
interface for search & subset creation.
In this paper, we evaluate the performance of various CLIP models as
zero-shot face recognizers. Our findings show that CLIP models perform well on
face recognition tasks, but increasing the size of the CLIP model does not
necessarily lead to improved accuracy. Additionally, we investigate the
robustness of CLIP models against data poisoning attacks by testing their
performance on poisoned data. Through this analysis, we aim to understand the
potential consequences and misuse of search engines built using CLIP models,
which could potentially function as unintentional face recognition engines.
- Abstract(参考訳): OpenAIが開発したCLIP(Contrastive Language- Image Pre-training)モデルは、画像認識や検索タスクにおいて優れた成果を上げ、ゼロショット性能が強い。
これは、明示的に訓練されていないタスクで効果的に実行できることを意味する。
OpenAI CLIPの成功に触発されて、LAION-5Bと呼ばれる新しい公開データセットが収集され、OpenAI L/14モデルを上回るオープンViT-H/14、ViT-G/14モデルが開発された。
laion-5bデータセットは、検索とサブセット生成のためのwebインターフェースを備えた、ほぼ近い隣接インデックスもリリースした。
本稿では,様々なCLIPモデルの性能をゼロショット顔認識器として評価する。
以上の結果から,CLIPモデルが顔認識タスクで良好に機能することが示唆されるが,CLIPモデルのサイズが大きくなることで必ずしも精度が向上するとは限らない。
さらに,CLIPモデルによるデータ中毒攻撃に対するロバスト性について検討し,その性能を有毒データで検証した。
この分析を通じて,CLIPモデルを用いて構築された検索エンジンの潜在的な影響と誤用を理解することを目指しており,これは意図しない顔認識エンジンとして機能する可能性がある。
関連論文リスト
- Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP [3.5999252362400993]
本研究では,視覚言語モデルが,属性オブジェクト対の新たな構成で画像の分類を成功させるかどうかを考察する。
その結果,OpenAI CLIP, LAION-400M, LAION-2Bなどの大規模データセットを用いてトレーニングしたCLIPは, 有効合成OoDの一般化において, オーダー・オブ・マグニチュードの改善を示すことがわかった。
本研究は,学習データと言語指導の規模と多様性が,視覚言語モデルの構成一般化能力の解放に重要な役割を果たしていることを示すものである。
論文 参考訳(メタデータ) (2024-03-27T12:59:44Z) - A Sober Look at the Robustness of CLIPs to Spurious Features [45.87070442259975]
私たちはCLIPモデルが現実的なスプリアス機能に依存していることを明らかにするために、CounterAnimalという新しいデータセットを作成しました。
評価の結果、CounterAnimalが取得したスプリアス特性は、異なるバックボーンとプレトレインデータを持つCLIPモデルによって総称的に学習されるが、ImageNetモデルへの影響は限定的であることが示された。
論文 参考訳(メタデータ) (2024-03-18T06:04:02Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Adapting Contrastive Language-Image Pretrained (CLIP) Models for
Out-of-Distribution Detection [1.597617022056624]
本研究では,視覚的アウトオブディストリビューション(OOD)検出のための事前訓練された特徴抽出器に関する総合的研究を行った。
我々は,OOD検出のための視覚言語モデルに適応するスタイリット擬似ラベル探索(PLP)と呼ばれる,シンプルでスケーラブルな新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T10:02:18Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。