論文の概要: Quality-Aware Prototype Memory for Face Representation Learning
- arxiv url: http://arxiv.org/abs/2311.07734v1
- Date: Mon, 13 Nov 2023 20:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:17:38.858485
- Title: Quality-Aware Prototype Memory for Face Representation Learning
- Title(参考訳): 顔表現学習のための品質認識型プロトタイプメモリ
- Authors: Evgeny Smirnov, Vasiliy Galyuk and Evgeny Lukyanets
- Abstract要約: プロトタイプメモリは、顔表現学習のための強力なモデルである。
任意のサイズのデータセットを使用して、顔認識モデルのトレーニングを可能にする。
本稿では,品質に配慮したプロトタイプ生成によるプロトタイプメモリの改良手法を提案する。
- 参考スコア(独自算出の注目度): 0.13154296174423616
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Prototype Memory is a powerful model for face representation learning. It
enables the training of face recognition models using datasets of any size,
with on-the-fly generation of prototypes (classifier weights) and efficient
ways of their utilization. Prototype Memory demonstrated strong results in many
face recognition benchmarks. However, the algorithm of prototype generation,
used in it, is prone to the problems of imperfectly calculated prototypes in
case of low-quality or poorly recognizable faces in the images, selected for
the prototype creation. All images of the same person, presented in the
mini-batch, used with equal weights, and the resulting averaged prototype could
be contaminated with imperfect embeddings of such face images. It can lead to
misdirected training signals and impair the performance of the trained face
recognition models. In this paper, we propose a simple and effective way to
improve Prototype Memory with quality-aware prototype generation. Quality-Aware
Prototype Memory uses different weights for images of different quality in the
process of prototype generation. With this improvement, prototypes get more
valuable information from high-quality images and less hurt by low-quality
ones. We propose and compare several methods of quality estimation and usage,
perform extensive experiments on the different face recognition benchmarks and
demonstrate the advantages of the proposed model compared to the basic version
of Prototype Memory.
- Abstract(参考訳): プロトタイプメモリは、顔表現学習の強力なモデルである。
任意のサイズのデータセットを使って顔認識モデルのトレーニングを可能にし、プロトタイプ(分類重み)をオンザフライで生成し、効率的な利用方法を提供する。
プロトタイプメモリは多くの顔認識ベンチマークで強い結果を示した。
しかし, プロトタイプ生成アルゴリズムは, 画像中の低品質な顔や認識しにくい顔の場合に不完全に計算されたプロトタイプに問題があり, プロトタイプ生成のために選択される。
ミニバッチで提示された同じ人物の全ての画像は、同じ重さで使われ、その結果、平均されたプロトタイプは、そのような顔画像の不完全な埋め込みで汚染される可能性がある。
トレーニングシグナルを誤指示し、トレーニング済みの顔認識モデルの性能を損なう可能性がある。
本稿では,品質に配慮したプロトタイプ生成によるプロトタイプメモリの改良手法を提案する。
Quality-Aware Prototype Memoryは、プロトタイプ生成の過程で異なる品質の画像に異なる重みを使用する。
この改良により、プロトタイプは高品質の画像からより貴重な情報を得ることができ、低品質の画像は傷つけない。
品質評価と使用法を複数提案・比較し、異なる顔認識ベンチマークで広範な実験を行い、プロトタイプメモリの基本的なバージョンと比較して、提案モデルの利点を実証する。
関連論文リスト
- Interpretable Image Classification with Adaptive Prototype-based Vision Transformers [37.62530032165594]
本稿では,ディープラーニングとケースベース推論を組み合わせた画像分類手法であるProtoViTを提案する。
我々のモデルは、視覚変換器(ViT)のバックボーンをプロトタイプベースモデルに統合し、空間的に変形したプロトタイプを提供する。
実験の結果,本モデルでは既存のプロトタイプモデルよりも高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-10-28T04:33:28Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Assessing Image Quality Using a Simple Generative Representation [34.173947968362675]
VAE-QAは、フル参照の存在下で画像品質を予測するためのシンプルで効率的な方法である。
提案手法を4つの標準ベンチマークで評価した結果,データセット間の一般化が著しく向上していることが判明した。
論文 参考訳(メタデータ) (2024-04-28T13:18:47Z) - Generalized Relevance Learning Grassmann Quantization [0.0]
イメージ集合をモデル化する一般的な方法は部分空間であり、グラスマン多様体と呼ばれる多様体を形成する。
一般化関連学習ベクトル量子化の応用を拡張して、グラスマン多様体を扱う。
本稿では,手書き文字認識,顔認識,アクティビティ認識,オブジェクト認識など,いくつかのタスクに適用する。
論文 参考訳(メタデータ) (2024-03-14T08:53:01Z) - Mixture of Gaussian-distributed Prototypes with Generative Modelling for Interpretable and Trustworthy Image Recognition [15.685927265270085]
ガウス分布プロトタイプ(MGProto)の混合(mixture of Gaussian-Distributed Prototypes)と呼ばれるプロトタイプ分布を学習するための新しい生成パラダイムを提案する。
MGProtoは最先端の画像認識とOoD検出性能を実現し,解釈可能性の向上を実現している。
論文 参考訳(メタデータ) (2023-11-30T11:01:37Z) - Rethinking Person Re-identification from a Projection-on-Prototypes
Perspective [84.24742313520811]
検索タスクとしてのPerson Re-IDentification(Re-ID)は,過去10年間で大きな発展を遂げてきた。
本稿では,新しいベースライン ProNet を提案する。
4つのベンチマークの実験では、提案したProNetは単純だが有効であり、以前のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2023-08-21T13:38:10Z) - Unicom: Universal and Compact Representation Learning for Image
Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-12T14:25:52Z) - Prototype Memory for Large-scale Face Representation Learning [0.5524804393257919]
softmaxベースのアプローチは、数百万人のデータセットには適していない。
プロトタイプメモリと呼ばれる新しい顔表現学習モデルを提案する。
人気の顔認識ベンチマークに関する広範な実験により,提案モデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-05-05T15:08:34Z) - Learning Sparse Prototypes for Text Generation [120.38555855991562]
プロトタイプ駆動のテキスト生成は、トレーニングコーパス全体の保存とインデックスを必要とするため、テスト時に非効率である。
本稿では,言語モデリング性能を向上するスパースなプロトタイプサポートセットを自動的に学習する新しい生成モデルを提案する。
実験では,1000倍のメモリ削減を実現しつつ,従来のプロトタイプ駆動型言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-06-29T19:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。