Fugu-MT 論文翻訳(概要): Face Recognition in the age of CLIP & Billion image datasets

論文の概要: Face Recognition in the age of CLIP & Billion image datasets

arxiv url: http://arxiv.org/abs/2301.07315v1
Date: Wed, 18 Jan 2023 05:34:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-19 16:45:48.419523
Title: Face Recognition in the age of CLIP & Billion image datasets
Title（参考訳）: クリップと10億画像データセットの時代における顔認識
Authors: Aaditya Bhat, Shrey Jain
Abstract要約: 種々のCLIPモデルの性能をゼロショット顔認識器として評価する。また,データ中毒に対するCLIPモデルの堅牢性についても検討した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: CLIP (Contrastive Language-Image Pre-training) models developed by OpenAI have achieved outstanding results on various image recognition and retrieval tasks, displaying strong zero-shot performance. This means that they are able to perform effectively on tasks for which they have not been explicitly trained. Inspired by the success of OpenAI CLIP, a new publicly available dataset called LAION-5B was collected which resulted in the development of open ViT-H/14, ViT-G/14 models that outperform the OpenAI L/14 model. The LAION-5B dataset also released an approximate nearest neighbor index, with a web interface for search & subset creation. In this paper, we evaluate the performance of various CLIP models as zero-shot face recognizers. Our findings show that CLIP models perform well on face recognition tasks, but increasing the size of the CLIP model does not necessarily lead to improved accuracy. Additionally, we investigate the robustness of CLIP models against data poisoning attacks by testing their performance on poisoned data. Through this analysis, we aim to understand the potential consequences and misuse of search engines built using CLIP models, which could potentially function as unintentional face recognition engines.
Abstract（参考訳）: OpenAIが開発したCLIP(Contrastive Language- Image Pre-training)モデルは、画像認識や検索タスクにおいて優れた成果を上げ、ゼロショット性能が強い。これは、明示的に訓練されていないタスクで効果的に実行できることを意味する。 OpenAI CLIPの成功に触発されて、LAION-5Bと呼ばれる新しい公開データセットが収集され、OpenAI L/14モデルを上回るオープンViT-H/14、ViT-G/14モデルが開発された。 laion-5bデータセットは、検索とサブセット生成のためのwebインターフェースを備えた、ほぼ近い隣接インデックスもリリースした。本稿では,様々なCLIPモデルの性能をゼロショット顔認識器として評価する。以上の結果から,CLIPモデルが顔認識タスクで良好に機能することが示唆されるが,CLIPモデルのサイズが大きくなることで必ずしも精度が向上するとは限らない。さらに,CLIPモデルによるデータ中毒攻撃に対するロバスト性について検討し,その性能を有毒データで検証した。この分析を通じて,CLIPモデルを用いて構築された検索エンジンの潜在的な影響と誤用を理解することを目指しており,これは意図しない顔認識エンジンとして機能する可能性がある。

関連論文リスト

Team NYCU at Defactify4: Robust Detection and Source Identification of AI-Generated Images Using CNN and CLIP-Based Models [8.149084146016587]
本稿では,CNNとCLIP-ViT分類器を用いて,AI生成画像の検出とソースモデルの同定に取り組む。 CNNベースの分類器では、EfficientNet-B0をバックボーンとして利用し、RGBチャネル、周波数特性、再構成エラーでフィードをフィード化する。 CLIP-ViTでは、事前訓練されたCLIP画像エンコーダを用いて画像の特徴を抽出し、SVMを用いて分類を行う。
論文参考訳（メタデータ） (2025-03-13T07:21:16Z)
Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。 7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文参考訳（メタデータ） (2024-08-21T09:08:26Z)
Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP [3.5999252362400993]
本研究では,視覚言語モデルが,属性オブジェクト対の新たな構成で画像の分類を成功させるかどうかを考察する。その結果,OpenAI CLIP, LAION-400M, LAION-2Bなどの大規模データセットを用いてトレーニングしたCLIPは, 有効合成OoDの一般化において, オーダー・オブ・マグニチュードの改善を示すことがわかった。本研究は,学習データと言語指導の規模と多様性が,視覚言語モデルの構成一般化能力の解放に重要な役割を果たしていることを示すものである。
論文参考訳（メタデータ） (2024-03-27T12:59:44Z)
A Sober Look at the Robustness of CLIPs to Spurious Features [45.87070442259975]
私たちはCLIPモデルが現実的なスプリアス機能に依存していることを明らかにするために、CounterAnimalという新しいデータセットを作成しました。評価の結果、CounterAnimalが取得したスプリアス特性は、異なるバックボーンとプレトレインデータを持つCLIPモデルによって総称的に学習されるが、ImageNetモデルへの影響は限定的であることが示された。
論文参考訳（メタデータ） (2024-03-18T06:04:02Z)
Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文参考訳（メタデータ） (2023-11-30T21:11:20Z)
Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文参考訳（メタデータ） (2023-07-18T13:10:11Z)
Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-06-12T15:52:02Z)
Adapting Contrastive Language-Image Pretrained (CLIP) Models for Out-of-Distribution Detection [1.597617022056624]
本研究では,視覚的アウトオブディストリビューション(OOD)検出のための事前訓練された特徴抽出器に関する総合的研究を行った。我々は,OOD検出のための視覚言語モデルに適応するスタイリット擬似ラベル探索(PLP)と呼ばれる,シンプルでスケーラブルな新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-10T10:02:18Z)
Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。 REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2023-01-17T18:59:06Z)
CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文参考訳（メタデータ） (2022-12-12T18:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。