論文の概要: A Method for Curation of Web-Scraped Face Image Datasets
- arxiv url: http://arxiv.org/abs/2004.03074v1
- Date: Tue, 7 Apr 2020 01:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:12:18.345266
- Title: A Method for Curation of Web-Scraped Face Image Datasets
- Title(参考訳): Webスクレイプ顔画像データセットのキュレーション法
- Authors: Kai Zhang, V\'itor Albiero and Kevin W. Bowyer
- Abstract要約: データセットを集める際には、さまざまな問題が発生する。
何百万もの画像が存在しているため、手作業によるクリーニングは不可能である。
本稿では,顔認識手法をテストするためのクリーンなデータセットを提供することを目標とする半自動手法を提案する。
- 参考スコア(独自算出の注目度): 13.893682217746816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web-scraped, in-the-wild datasets have become the norm in face recognition
research. The numbers of subjects and images acquired in web-scraped datasets
are usually very large, with number of images on the millions scale. A variety
of issues occur when collecting a dataset in-the-wild, including images with
the wrong identity label, duplicate images, duplicate subjects and variation in
quality. With the number of images being in the millions, a manual cleaning
procedure is not feasible. But fully automated methods used to date result in a
less-than-ideal level of clean dataset. We propose a semi-automated method,
where the goal is to have a clean dataset for testing face recognition methods,
with similar quality across men and women, to support comparison of accuracy
across gender. Our approach removes near-duplicate images, merges duplicate
subjects, corrects mislabeled images, and removes images outside a defined
range of pose and quality. We conduct the curation on the Asian Face Dataset
(AFD) and VGGFace2 test dataset. The experiments show that a state-of-the-art
method achieves a much higher accuracy on the datasets after they are curated.
Finally, we release our cleaned versions of both datasets to the research
community.
- Abstract(参考訳): Webでスクレイプされた、Wild内のデータセットは、顔認識研究の標準となっている。
webスクレイプされたデータセットで取得される主題や画像の数は、通常非常に多く、数百万の規模の画像がある。
不正なidラベルのある画像、重複した画像、重複した主題、品質のばらつきなど、wild内でデータセットを収集する場合、さまざまな問題が発生する。
何百万もの画像が存在するため、手作業によるクリーニングは不可能である。
しかし、それまでの完全に自動化された方法は、理想的ではなくクリーンなデータセットをもたらす。
本研究では,性別間の精度比較を支援するために,男性と女性に類似した品質の顔認識手法をテストするためのクリーンなデータセットを提供することを目標とする半自動手法を提案する。
提案手法では,重複に近い画像を削除し,重複した被写体をマージし,誤ラベル画像を補正し,所定のポーズと品質の範囲外の画像を削除する。
我々はAsia Face Dataset(AFD)とVGGFace2テストデータセット上でキュレーションを行う。
実験の結果、最先端の手法はデータセットのキュレーション後の精度がはるかに高いことが判明した。
最後に、両方のデータセットのクリーンバージョンを研究コミュニティにリリースします。
関連論文リスト
- Semantic Contextualization of Face Forgery: A New Definition, Dataset, and Detection Method [77.65459419417533]
我々は,顔フォージェリを意味的文脈に配置し,意味的顔属性を変更する計算手法が顔フォージェリの源であることを定義した。
階層的なグラフで整理されたラベルの集合に各画像が関連付けられている大規模な顔偽画像データセットを構築した。
本稿では,ラベル関係を捕捉し,その優先課題を優先するセマンティクス指向の顔偽造検出手法を提案する。
論文 参考訳(メタデータ) (2024-05-14T10:24:19Z) - Double Trouble? Impact and Detection of Duplicates in Face Image
Datasets [7.092869001331781]
顔のバイオメトリックス研究を目的とした顔画像データセットは、Webスクラッピングによって作成されている。
この研究は、顔画像とほぼ同一の顔画像の両方を正確に検出するアプローチを示す。
論文 参考訳(メタデータ) (2024-01-25T11:10:13Z) - Multi-Task Faces (MTF) Data Set: A Legally and Ethically Compliant
Collection of Face Images for Various Classification Tasks [3.1133049660590615]
最近のプライバシー規制は、人間の画像の収集と研究の方法を制限する。
人間の顔を含むいくつかのデータセットは、不十分なデータ収集方法のため、インターネットから削除されている。
本稿では,多面顔画像データセットであるMTF(Multi-Task Faces)について述べる。
論文 参考訳(メタデータ) (2023-11-20T16:19:46Z) - Diverse, Difficult, and Odd Instances (D2O): A New Test Set for Object
Classification [47.64219291655723]
既存のテストセットと十分に異なるD2Oと呼ばれる新しいテストセットを導入します。
私たちのデータセットには、36のカテゴリにまたがる8,060のイメージが含まれており、そのうち29がImageNetに表示されています。
私たちのデータセットで最高のTop-1精度は約60%で、ImageNetで91%のTop-1精度よりもはるかに低いです。
論文 参考訳(メタデータ) (2023-01-29T19:58:32Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Personalized Image Semantic Segmentation [58.980245748434]
ラベルのないパーソナライズされた画像に対して、データのパーソナライズされた特徴を調査することにより、より正確なセグメンテーション結果を生成する。
画像のセグメント化時に画像間コンテキストを組み込んだベースライン手法を提案する。
コードとPSSデータセットは公開されます。
論文 参考訳(メタデータ) (2021-07-24T04:03:11Z) - Machine learning with limited data [1.2183405753834562]
我々は少数のショット画像分類を研究するが、我々はごく少数のラベル付きデータしか持っていない。
一つの方法は、これらの画像のスタイルを混ぜて画像の特徴を強化することです。
第2の方法は、画像のパッチ間の関係を探索するために空間的注意を適用することである。
論文 参考訳(メタデータ) (2021-01-18T17:10:39Z) - Semi-supervised Learning for Few-shot Image-to-Image Translation [89.48165936436183]
本稿では,SEMITと呼ばれる画像翻訳のための半教師付き手法を提案する。
提案手法は,ソースラベルの10%以下を用いて,4つの異なるデータセットに対して優れた結果を得る。
論文 参考訳(メタデータ) (2020-03-30T22:46:49Z) - Dataset Cleaning -- A Cross Validation Methodology for Large Facial
Datasets using Face Recognition [0.40611352512781856]
近年、顔検出、顔認識、その他のタスクの進歩を促進するために、大規模な「野生の」顔データセットがリリースされた。
これらのデータセットの収集方法が自動的であり、そのサイズが大きいため、多くのIDフォルダにはデータセットの品質を劣化させる間違ったラベル付きサンプルが含まれている。
本研究では,音声認識を用いて,ノイズの多い顔データセットを半自動で浄化する手法を提案する。
論文 参考訳(メタデータ) (2020-03-24T13:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。