論文の概要: GIF: Generative Inspiration for Face Recognition at Scale
- arxiv url: http://arxiv.org/abs/2505.03012v1
- Date: Mon, 05 May 2025 20:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.123608
- Title: GIF: Generative Inspiration for Face Recognition at Scale
- Title(参考訳): GIF: 大規模顔認証のための創発的インスピレーション
- Authors: Saeed Ebrahimi, Sahar Rahimi, Ali Dabouei, Srinjoy Das, Jeremy M. Dawson, Nasser M. Nasrabadi,
- Abstract要約: 本稿では,スカラーラベルを構造化IDコードで置換する簡易かつ効果的な手法を提案する。
結果として、関連する計算コストは、対数的なw.r.t.のアイデンティティの数になる。
IJB-BとIJB-Cでは,TAR@FAR$=1e-4$で1.52%,TAR@FAR$=1e-4$で0。
- 参考スコア(独自算出の注目度): 16.763160576729224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aiming to reduce the computational cost of Softmax in massive label space of Face Recognition (FR) benchmarks, recent studies estimate the output using a subset of identities. Although promising, the association between the computation cost and the number of identities in the dataset remains linear only with a reduced ratio. A shared characteristic among available FR methods is the employment of atomic scalar labels during training. Consequently, the input to label matching is through a dot product between the feature vector of the input and the Softmax centroids. Inspired by generative modeling, we present a simple yet effective method that substitutes scalar labels with structured identity code, i.e., a sequence of integers. Specifically, we propose a tokenization scheme that transforms atomic scalar labels into structured identity codes. Then, we train an FR backbone to predict the code for each input instead of its scalar label. As a result, the associated computational cost becomes logarithmic w.r.t. number of identities. We demonstrate the benefits of the proposed method by conducting experiments. In particular, our method outperforms its competitors by 1.52%, and 0.6% at TAR@FAR$=1e-4$ on IJB-B and IJB-C, respectively, while transforming the association between computational cost and the number of identities from linear to logarithmic. See code at https://github.com/msed-Ebrahimi/GIF
- Abstract(参考訳): 最近の研究では、顔認識(FR)ベンチマークの大規模ラベル空間におけるSoftmaxの計算コストを削減すべく、サブセットのIDを用いて出力を推定している。
有望ではあるが、計算コストとデータセットのID数との関係は、比を小さくするだけで線形である。
FR法に共通する特徴は、トレーニング中に原子スカラーラベルを用いることである。
その結果、ラベルマッチングへの入力は、入力の特徴ベクトルとSoftmaxセントロイドとの間のドット積を介して行われる。
生成的モデリングに触発されて、スカラーラベルを構造化IDコード、すなわち整数列に置換する、単純で効果的な方法を提案する。
具体的には、原子スカラーラベルを構造化IDコードに変換するトークン化方式を提案する。
次に、FRバックボーンをトレーニングし、スカラーラベルの代わりに各入力のコードを予測する。
結果として、関連する計算コストは、対数的なw.r.t.のアイデンティティの数になる。
提案手法の利点を実験により示す。
IJB-B と IJB-C の TAR@FAR$=1e-4$ でそれぞれ 1.52% と 0.6% を上回り,計算コストと個人数の関係を線形から対数へ変換した。
https://github.com/msed-Ebrahimi/GIF
関連論文リスト
- Towards Micro-Action Recognition with Limited Annotations: An Asynchronous Pseudo Labeling and Training Approach [35.32024173141412]
本稿では,SSMAR(Semi-Supervised MAR)の設定について紹介する。
従来のSemi-Supervised Learning(SSL)メソッドは、不正確な擬似ラベルに過度に適合する傾向があり、エラーの蓄積と性能の低下につながる。
擬似ラベル作成プロセスとモデルトレーニングを明確に分離する非同期擬似ラベル作成訓練(APLT)を提案する。
論文 参考訳(メタデータ) (2025-04-10T14:22:15Z) - Enhancing Learning with Label Differential Privacy by Vector Approximation [12.212865127830872]
ラベル微分プライバシ(DP)は、データセットのトレーニングにおいてラベルのプライバシを保護するフレームワークである。
既存のアプローチは、ラベルをランダムに反転させることで、ラベルのプライバシを保護する。
本稿では,実装が容易で,計算オーバーヘッドがほとんどないベクトル近似手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T02:08:45Z) - UniDEC : Unified Dual Encoder and Classifier Training for Extreme Multi-Label Classification [42.59511319244973]
Extreme Multi-label Classification (XMC) は非常に大きなラベル空間から関連するラベルのサブセットを予測する。
損失に依存しないエンドツーエンドのトレーニング可能なフレームワークであるUniDECを開発した。
UniDECは、数百万のラベルを持つデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-05-04T17:27:51Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Fine- and Coarse-Granularity Hybrid Self-Attention for Efficient BERT [22.904252855587348]
本稿では, 計算列長を漸進的に短縮することにより, コストを低減できる, 微細で粗い粒度ハイブリッド型自己アテンションを提案する。
FCAは従来の手法に比べて精度とFLOPのトレードオフが著しく優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T03:33:47Z) - SparseDet: Improving Sparsely Annotated Object Detection with
Pseudo-positive Mining [76.95808270536318]
Pseudo- positive mining を用いてラベル付き地域とラベルなし地域を分離するエンド・ツー・エンドシステムを提案する。
ラベル付き領域は通常通り処理されるが、ラベルなし領域の処理には自己教師付き学習が使用される。
我々は,PASCAL-VOCとCOCOデータセットの5つの分割に対して,最先端の性能を達成するための徹底的な実験を行った。
論文 参考訳(メタデータ) (2022-01-12T18:57:04Z) - Instance-dependent Label-noise Learning under a Structural Causal Model [92.76400590283448]
ラベルノイズはディープラーニングアルゴリズムの性能を劣化させる。
構造因果モデルを活用することにより,実例依存型ラベルノイズ学習のための新しい生成手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T10:42:54Z) - A Unified Generative Adversarial Network Training via Self-Labeling and
Self-Attention [38.31735499785227]
本稿では,任意のレベルのラベリングを統一的に処理できる新しいGANトレーニング手法を提案する。
提案手法では,手動で定義したラベルを組み込むことができる人工ラベル方式を導入する。
我々は, CIFAR-10, STL-10, SVHNに対するアプローチを評価し, 自己ラベルと自己アテンションの両方が生成データの品質を継続的に向上することを示す。
論文 参考訳(メタデータ) (2021-06-18T04:40:26Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。