論文の概要: Cluster and Aggregate: Face Recognition with Large Probe Set
- arxiv url: http://arxiv.org/abs/2210.10864v1
- Date: Wed, 19 Oct 2022 20:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:39:02.915681
- Title: Cluster and Aggregate: Face Recognition with Large Probe Set
- Title(参考訳): クラスターとアグリゲート:大型プローブセットによる顔認識
- Authors: Minchul Kim, Feng Liu, Anil Jain, Xiaoming Liu
- Abstract要約: 本稿では,2段階の機能融合パラダイムであるClusterとAggregateを提案する。
IJB-BおよびIJB-Sベンチマークデータセットの実験は、制約のない顔認識における提案された2段階パラダイムの優位性を示している。
- 参考スコア(独自算出の注目度): 18.662943303044315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature fusion plays a crucial role in unconstrained face recognition where
inputs (probes) comprise of a set of $N$ low quality images whose individual
qualities vary. Advances in attention and recurrent modules have led to feature
fusion that can model the relationship among the images in the input set.
However, attention mechanisms cannot scale to large $N$ due to their quadratic
complexity and recurrent modules suffer from input order sensitivity. We
propose a two-stage feature fusion paradigm, Cluster and Aggregate, that can
both scale to large $N$ and maintain the ability to perform sequential
inference with order invariance. Specifically, Cluster stage is a linear
assignment of $N$ inputs to $M$ global cluster centers, and Aggregation stage
is a fusion over $M$ clustered features. The clustered features play an
integral role when the inputs are sequential as they can serve as a
summarization of past features. By leveraging the order-invariance of
incremental averaging operation, we design an update rule that achieves
batch-order invariance, which guarantees that the contributions of early image
in the sequence do not diminish as time steps increase. Experiments on IJB-B
and IJB-S benchmark datasets show the superiority of the proposed two-stage
paradigm in unconstrained face recognition. Code and pretrained models are
available in https://github.com/mk-minchul/caface
- Abstract(参考訳): 特徴融合は顔認識において重要な役割を担い、入力(プローブ)は、個々の特性が異なるN$の低品質画像からなる。
注意と反復モジュールの進歩は、入力セット内の画像間の関係をモデル化できる特徴融合につながっている。
しかし、2次複雑性と繰り返しのモジュールが入力順序の感度に苦しむため、アテンション機構は大きな$n$までスケールできない。
本稿では,2段階の機能融合パラダイムであるClusterとAggregateを提案する。
具体的には、クラスタステージは、グローバルクラスタセンターへの$N$入力の線形割り当てであり、アグリゲーションステージは、M$クラスタ化された機能に対する融合である。
クラスタ化された特徴は、入力が逐次的であり、過去の特徴の要約として機能するときに重要な役割を果たす。
逐次平均演算の順序不変性を利用することで,バッチ順序不変性を実現する更新ルールを設計し,時間ステップの増加に伴って初期画像の寄与が減少しないことを保証する。
IJB-BおよびIJB-Sベンチマークデータセットの実験は、制約のない顔認識における提案された2段階パラダイムの優位性を示している。
コードおよび事前訓練されたモデルはhttps://github.com/mk-minchul/cafaceで利用可能である。
関連論文リスト
- PRISM: PRogressive dependency maxImization for Scale-invariant image Matching [4.9521269535586185]
スケール不変画像マッチング(PRISM)のためのPRogressive dependency maximizationを提案する。
提案手法は,各種評価ベンチマークや下流タスクの精度向上により,より優れたマッチング性能と一般化能力を確認した。
論文 参考訳(メタデータ) (2024-08-07T07:35:17Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Unsupervised Gait Recognition with Selective Fusion [10.414364995179556]
教師なし歩行認識(Unsupervised Gait Recognition, UGR)を提案する。
クラスタレベルのコントラスト学習でUGRを解決するための,新しいクラスタベースベースラインを導入する。
SCF(Selective Cluster Fusion)とSSF(Selective Sample Fusion)を組み合わせたSelective Fusion法を提案する。
論文 参考訳(メタデータ) (2023-03-19T21:34:20Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - API: Boosting Multi-Agent Reinforcement Learning via
Agent-Permutation-Invariant Networks [35.63476630248861]
多エージェント強化学習は、状態-作用空間の指数的な成長によりサンプル効率が低下する。
置換不変量(PI)を実現するための2つの新しい設計を提案する。
最初の設計は、同じが異なる順序の入力を同じ順序に戻し、下流ネットワークは、固定順序の入力よりも関数マッピングを学ぶ必要がある。
論文 参考訳(メタデータ) (2022-03-10T11:00:53Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - GATCluster: Self-Supervised Gaussian-Attention Network for Image
Clustering [9.722607434532883]
画像クラスタリングのための自己教師型クラスタリングネットワーク(GATCluster)を提案する。
まず中間機能を抽出し、次に従来のクラスタリングを実行する代わりに、GATClusterセマンティッククラスタラベルを後処理なしで実行します。
大規模画像のクラスタリングにメモリ効率のよい2段階学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-02-27T00:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。