論文の概要: Inter-class Discrepancy Alignment for Face Recognition
- arxiv url: http://arxiv.org/abs/2103.01559v1
- Date: Tue, 2 Mar 2021 08:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:26:36.289049
- Title: Inter-class Discrepancy Alignment for Face Recognition
- Title(参考訳): 顔認識のためのクラス間差分アライメント
- Authors: Jiaheng Liu, Yudong Wu, Yichao Wu, Zhenmao Li, Chen Ken, Ding Liang,
Junjie Yan
- Abstract要約: IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
- 参考スコア(独自算出の注目度): 55.578063356210144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of face recognition (FR) has witnessed great progress with the
surge of deep learning. Existing methods mainly focus on extracting
discriminative features, and directly compute the cosine or L2 distance by the
point-to-point way without considering the context information. In this study,
we make a key observation that the local con-text represented by the
similarities between the instance and its inter-class neighbors1plays an
important role forFR. Specifically, we attempt to incorporate the local
in-formation in the feature space into the metric, and pro-pose a unified
framework calledInter-class DiscrepancyAlignment(IDA), with two dedicated
modules, Discrepancy Alignment Operator(IDA-DAO) andSupport Set
Estimation(IDA-SSE). IDA-DAO is used to align the similarity scores considering
the discrepancy between the images and its neighbors, which is defined by
adaptive support sets on the hypersphere. For practical inference, it is
difficult to acquire support set during online inference. IDA-SSE can provide
convincing inter-class neighbors by introducing virtual candidate images
generated with GAN. Further-more, we propose the learnable IDA-SSE, which can
implicitly give estimation without the need of any other images in the
evaluation process. The proposed IDA can be incorporated into existing FR
systems seamlessly and efficiently. Extensive experiments demonstrate that this
frame-work can 1) significantly improve the accuracy, and 2) make the model
robust to the face images of various distributions.Without bells and whistles,
our method achieves state-of-the-art performance on multiple standard FR
benchmarks.
- Abstract(参考訳): 顔認識(FR)の分野は、深層学習の急増とともに大きな進歩をみせている。
既存の手法は主に識別的特徴の抽出に重点を置いており、文脈情報を考慮せずにコサイン距離やl2距離を直接計算している。
本研究では,実例とクラス間の類似性で表される局所的なcon-textがFRにとって重要な役割を担っていることを示す。
具体的には,特徴空間の局所的なインフォームをメトリックに組み込んで,IDA(Inter-class DiscrepancyAlignment)と呼ばれる統合フレームワークを2つの専用モジュール,IDA-DAO(Disdisrepancy Alignment Operator)とSupport Set Estimation(IDA-SSE)で提案する。
ida-daoは、超球面上の適応的支持集合によって定義される画像と隣接点の間の不一致を考慮した類似度スコアの調整に用いられる。
実際の推論では,オンライン推論におけるサポートセットの取得は困難である。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
さらに,評価プロセスにおいて,他の画像を必要としない暗黙的に推定を行うことができる学習可能なIDA-SSEを提案する。
提案するidaは既存のfrシステムにシームレスかつ効率的に組み込むことができる。
このフレームワークは、1)精度を大幅に向上させることができ、2)さまざまな分布の顔画像に堅牢なモデルを作ることができ、ベルやホイッスルがなければ、私たちの方法は複数の標準FRベンチマークで最先端のパフォーマンスを達成します。
関連論文リスト
- ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Dense Affinity Matching for Few-Shot Segmentation [83.65203917246745]
Few-Shot (FSS) は、新しいクラスイメージをいくつかのサンプルで分割することを目的としている。
本稿では,サポートクエリ間の相互作用を生かした密接な親和性マッチングフレームワークを提案する。
我々のフレームワークは0.68万のパラメータしか持たない異なる設定で非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2023-07-17T12:27:15Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z) - Spatial-Scale Aligned Network for Fine-Grained Recognition [42.71878867504503]
精密な視覚認識のための既存のアプローチは、境界領域に基づく表現の学習に重点を置いている。
本稿では,空間スケールアライメントネットワーク(SSANET)を提案する。
論文 参考訳(メタデータ) (2020-01-05T11:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。