Fugu-MT 論文翻訳(概要): Quality-Aware Prototype Memory for Face Representation Learning

論文の概要: Quality-Aware Prototype Memory for Face Representation Learning

arxiv url: http://arxiv.org/abs/2311.07734v1
Date: Mon, 13 Nov 2023 20:36:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 16:17:38.858485
Title: Quality-Aware Prototype Memory for Face Representation Learning
Title（参考訳）: 顔表現学習のための品質認識型プロトタイプメモリ
Authors: Evgeny Smirnov, Vasiliy Galyuk and Evgeny Lukyanets
Abstract要約: プロトタイプメモリは、顔表現学習のための強力なモデルである。任意のサイズのデータセットを使用して、顔認識モデルのトレーニングを可能にする。本稿では,品質に配慮したプロトタイプ生成によるプロトタイプメモリの改良手法を提案する。
参考スコア（独自算出の注目度）: 0.13154296174423616
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Prototype Memory is a powerful model for face representation learning. It enables the training of face recognition models using datasets of any size, with on-the-fly generation of prototypes (classifier weights) and efficient ways of their utilization. Prototype Memory demonstrated strong results in many face recognition benchmarks. However, the algorithm of prototype generation, used in it, is prone to the problems of imperfectly calculated prototypes in case of low-quality or poorly recognizable faces in the images, selected for the prototype creation. All images of the same person, presented in the mini-batch, used with equal weights, and the resulting averaged prototype could be contaminated with imperfect embeddings of such face images. It can lead to misdirected training signals and impair the performance of the trained face recognition models. In this paper, we propose a simple and effective way to improve Prototype Memory with quality-aware prototype generation. Quality-Aware Prototype Memory uses different weights for images of different quality in the process of prototype generation. With this improvement, prototypes get more valuable information from high-quality images and less hurt by low-quality ones. We propose and compare several methods of quality estimation and usage, perform extensive experiments on the different face recognition benchmarks and demonstrate the advantages of the proposed model compared to the basic version of Prototype Memory.
Abstract（参考訳）: プロトタイプメモリは、顔表現学習の強力なモデルである。任意のサイズのデータセットを使って顔認識モデルのトレーニングを可能にし、プロトタイプ(分類重み)をオンザフライで生成し、効率的な利用方法を提供する。プロトタイプメモリは多くの顔認識ベンチマークで強い結果を示した。しかし, プロトタイプ生成アルゴリズムは, 画像中の低品質な顔や認識しにくい顔の場合に不完全に計算されたプロトタイプに問題があり, プロトタイプ生成のために選択される。ミニバッチで提示された同じ人物の全ての画像は、同じ重さで使われ、その結果、平均されたプロトタイプは、そのような顔画像の不完全な埋め込みで汚染される可能性がある。トレーニングシグナルを誤指示し、トレーニング済みの顔認識モデルの性能を損なう可能性がある。本稿では,品質に配慮したプロトタイプ生成によるプロトタイプメモリの改良手法を提案する。 Quality-Aware Prototype Memoryは、プロトタイプ生成の過程で異なる品質の画像に異なる重みを使用する。この改良により、プロトタイプは高品質の画像からより貴重な情報を得ることができ、低品質の画像は傷つけない。品質評価と使用法を複数提案・比較し、異なる顔認識ベンチマークで広範な実験を行い、プロトタイプメモリの基本的なバージョンと比較して、提案モデルの利点を実証する。

関連論文リスト

Predicting Satisfied User and Machine Ratio for Compressed Images: A Unified Approach [58.71009078356928]
圧縮画像のSUR(Satified User Ratio)とSMR(Satified Machine Ratio)を同時に予測するディープラーニングモデルを構築した。実験結果から,提案手法は最先端SURおよびSMR予測法より有意に優れていたことが示唆された。
論文参考訳（メタデータ） (2024-12-23T11:09:30Z)
Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文参考訳（メタデータ） (2024-12-23T02:18:54Z)
Interpretable Image Classification with Adaptive Prototype-based Vision Transformers [37.62530032165594]
本稿では,ディープラーニングとケースベース推論を組み合わせた画像分類手法であるProtoViTを提案する。我々のモデルは、視覚変換器(ViT)のバックボーンをプロトタイプベースモデルに統合し、空間的に変形したプロトタイプを提供する。実験の結果,本モデルでは既存のプロトタイプモデルよりも高い性能が得られることがわかった。
論文参考訳（メタデータ） (2024-10-28T04:33:28Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文参考訳（メタデータ） (2024-06-10T17:59:52Z)
Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文参考訳（メタデータ） (2024-05-29T06:09:34Z)
Assessing Image Quality Using a Simple Generative Representation [34.173947968362675]
VAE-QAは、フル参照の存在下で画像品質を予測するためのシンプルで効率的な方法である。提案手法を4つの標準ベンチマークで評価した結果,データセット間の一般化が著しく向上していることが判明した。
論文参考訳（メタデータ） (2024-04-28T13:18:47Z)
Generalized Relevance Learning Grassmann Quantization [0.0]
イメージ集合をモデル化する一般的な方法は部分空間であり、グラスマン多様体と呼ばれる多様体を形成する。一般化関連学習ベクトル量子化の応用を拡張して、グラスマン多様体を扱う。本稿では,手書き文字認識,顔認識,アクティビティ認識,オブジェクト認識など,いくつかのタスクに適用する。
論文参考訳（メタデータ） (2024-03-14T08:53:01Z)
Mixture of Gaussian-distributed Prototypes with Generative Modelling for Interpretable and Trustworthy Image Recognition [15.685927265270085]
ガウス分布プロトタイプ(MGProto)の混合(mixture of Gaussian-Distributed Prototypes)と呼ばれるプロトタイプ分布を学習するための新しい生成パラダイムを提案する。 MGProtoは最先端の画像認識とOoD検出性能を実現し,解釈可能性の向上を実現している。
論文参考訳（メタデータ） (2023-11-30T11:01:37Z)
Rethinking Person Re-identification from a Projection-on-Prototypes Perspective [84.24742313520811]
検索タスクとしてのPerson Re-IDentification(Re-ID)は,過去10年間で大きな発展を遂げてきた。本稿では,新しいベースライン ProNet を提案する。 4つのベンチマークの実験では、提案したProNetは単純だが有効であり、以前のベースラインを大きく上回っている。
論文参考訳（メタデータ） (2023-08-21T13:38:10Z)
Unicom: Universal and Compact Representation Learning for Image Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文参考訳（メタデータ） (2023-04-12T14:25:52Z)
Prototype Memory for Large-scale Face Representation Learning [0.5524804393257919]
softmaxベースのアプローチは、数百万人のデータセットには適していない。プロトタイプメモリと呼ばれる新しい顔表現学習モデルを提案する。人気の顔認識ベンチマークに関する広範な実験により,提案モデルの有効性を実証した。
論文参考訳（メタデータ） (2021-05-05T15:08:34Z)
Learning Sparse Prototypes for Text Generation [120.38555855991562]
プロトタイプ駆動のテキスト生成は、トレーニングコーパス全体の保存とインデックスを必要とするため、テスト時に非効率である。本稿では,言語モデリング性能を向上するスパースなプロトタイプサポートセットを自動的に学習する新しい生成モデルを提案する。実験では,1000倍のメモリ削減を実現しつつ,従来のプロトタイプ駆動型言語モデルよりも優れていた。
論文参考訳（メタデータ） (2020-06-29T19:41:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。