論文の概要: An Efficient Training Approach for Very Large Scale Face Recognition
- arxiv url: http://arxiv.org/abs/2105.10375v1
- Date: Fri, 21 May 2021 14:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:23:10.389267
- Title: An Efficient Training Approach for Very Large Scale Face Recognition
- Title(参考訳): 大規模顔認識のための効率的な学習手法
- Authors: Kai Wang, Shuo Wang, Zhipeng Zhou, Xiaobo Wang, Xiaojiang Peng, Baigui
Sun, Hao Li, Yang You
- Abstract要約: より高速な顔分類(F$2$C)と呼ばれる超大規模顔データセットのための新しい訓練手法を提案する。
F$2$Cで最初にギャラリーネットとプローブネットを定義し、顔認識のための顔の特徴を抽出する。
動的クラスプールはFC層の代用と見なすことができ、そのサイズはFCよりもはるかに小さい。
- 参考スコア(独自算出の注目度): 34.57040695353513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face recognition has achieved significant progress in deep-learning era due
to the ultra-large-scale and well-labeled datasets. However, training on
ultra-large-scale datasets is time-consuming and takes up a lot of hardware
resource. Therefore, how to design an appropriate training approach is very
crucial and indispensable. The computational and hardware cost of training
ultra-large-scale datasets mainly focuses on the Fully-Connected (FC) layer
rather than convolutional layers. To this end, we propose a novel training
approach for ultra-large-scale face datasets, termed Faster Face Classification
(F$^2$C). In F$^2$C, we first define a Gallery Net and a Probe Net that are
used to generate identities' centers and extract faces' features for face
recognition, respectively. Gallery Net has the same structure as Probe Net and
inherits the parameters from Probe Net with a moving average paradigm. After
that, to reduce the training time and hardware resource occupancy of the FC
layer, we propose the Dynamic Class Pool that stores the features from Gallery
Net and calculates the inner product (logits) with positive samples (its
identities appear in Dynamic Class Pool) in each mini-batch. Dynamic Class Pool
can be regarded as a substitute for the FC layer and its size is much smaller
than FC, which is the reason why Dynamic Class Pool can largely reduce the time
and resource cost. For negative samples (its identities are not appear in the
Dynamic Class Pool), we minimize the cosine similarities between negative
samples and Dynamic Class Pool. Then, to improve the update efficiency and
speed of Dynamic Class Pool's parameters, we design the Dual Loaders including
Identity-based and Instance-based Loaders. Dual Loaders load images from given
dataset by instances and identities to generate batches for training.
- Abstract(参考訳): 顔認識は、超大規模で十分にラベル付けされたデータセットにより、ディープラーニング時代において大きな進歩を遂げた。
しかし、超大規模データセットでのトレーニングは時間がかかり、多くのハードウェアリソースを消費する。
したがって、適切なトレーニングアプローチを設計する方法は非常に重要で不可欠です。
超大規模データセットをトレーニングする計算コストとハードウェアコストは、畳み込み層ではなく完全接続(fc)層に重点を置いている。
そこで本稿では,Faster Face Classification (F$^2$C) と呼ばれる,超大規模顔データセットの新たなトレーニング手法を提案する。
F$^2$C では、まず、認識のための顔の特徴を抽出し、アイデンティティのセンターを生成するために使用されるギャラリーネットとプローブネットを定義する。
Gallery NetはProbe Netと同じ構造を持ち、Probe Netのパラメータを移動平均パラダイムで継承する。
その後、fc層のトレーニング時間とハードウェアリソースの占有を減らすために、gallery netから機能を格納し、各ミニバッチで正のサンプル(動的クラスプールに現れるアイデンティティ)を持つ内積(ログ)を計算する動的クラスプールを提案する。
動的クラスプールはfc層の代替物と見なすことができ、そのサイズはfcよりはるかに小さいため、動的クラスプールは時間とリソースコストを大幅に削減することができる。
負のサンプル(そのアイデンティティはDynamic Class Poolには現れない)については、負のサンプルとDynamic Class Poolのコサイン類似性を最小化する。
次に、動的クラスプールのパラメータの更新効率と速度を改善するため、idベースとインスタンスベースのローダを含むデュアルローダを設計します。
デュアルローダは、与えられたデータセットからインスタンスとidでイメージをロードして、トレーニング用のバッチを生成する。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Progressive Meta-Pooling Learning for Lightweight Image Classification
Model [20.076610051602618]
本稿では,軽量ネットワークにおいて受容場を学習可能にするメタポーリングフレームワークを提案する。
本稿では,パラメータ化空間エンハンサーのためのPMPL(Progressive Meta-Pooling Learning)戦略を提案する。
ImageNetデータセットの結果、Meta-Poolingを使用したMobileNetV2は74.6%で、MobileNetV2の2.3%を上回っている。
論文 参考訳(メタデータ) (2023-01-24T14:28:05Z) - On the Soft-Subnetwork for Few-shot Class Incremental Learning [67.0373924836107]
本稿では,emphSoft-SubNetworks (SoftNet) と呼ばれる数発のクラスインクリメンタルラーニング(FSCIL)手法を提案する。
私たちの目的はセッションの連続を漸進的に学習することであり、各セッションは、以前に学習したセッションの知識を保持しながら、クラス毎にいくつかのトレーニングインスタンスのみを含む。
我々は、ベンチマークデータセットよりも最先端のベースラインのパフォーマンスを超越して、SoftNetが数発のインクリメンタル学習問題に効果的に取り組むことを示す、総合的な実証検証を提供する。
論文 参考訳(メタデータ) (2022-09-15T04:54:02Z) - PRANC: Pseudo RAndom Networks for Compacting deep models [22.793523211040682]
PRANCはディープモデルの大幅なコンパクト化を可能にする。
本研究では,PRANCを用いて画像分類モデルを構築し,関連する暗黙的ニューラルネットワークをコンパクト化することで画像の圧縮を行う。
論文 参考訳(メタデータ) (2022-06-16T22:03:35Z) - Semi-Supervised Few-Shot Classification with Deep Invertible Hybrid
Models [4.189643331553922]
半教師付き小ショット分類のための潜在空間レベルで識別学習と生成学習を統合するディープ・インバーチブルハイブリッドモデルを提案する。
我々の主な独創性は、これらのコンポーネントを潜在空間レベルで統合することであり、過度な適合を防ぐのに有効である。
論文 参考訳(メタデータ) (2021-05-22T05:55:16Z) - Multi-Agent Semi-Siamese Training for Long-tail and Shallow Face
Learning [54.13876727413492]
多くの現実世界の顔認識シナリオでは、トレーニングデータセットの深さは浅いため、IDごとに2つの顔画像しか利用できません。
非均一なサンプルの増加により、このような問題はより一般的なケース、すなわち長い尾の顔学習に変換される。
これらの問題に対処するために,マルチエージェントセミシアントレーニング(masst)という高度なソリューションを導入する。
広範な実験と比較は、長い尾と浅い顔学習のためのMASSTの利点を示しています。
論文 参考訳(メタデータ) (2021-05-10T04:57:32Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Multi-task pre-training of deep neural networks for digital pathology [8.74883469030132]
私たちはまず、多くのデジタル病理データセットを22の分類タスクと約900kの画像のプールに組み立て、変換しました。
特徴抽出器として使用されるモデルは、ImageNet事前訓練されたモデルよりも大幅に改善されるか、同等のパフォーマンスを提供するかを示す。
論文 参考訳(メタデータ) (2020-05-05T08:50:17Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。