論文の概要: FaceCoresetNet: Differentiable Coresets for Face Set Recognition
- arxiv url: http://arxiv.org/abs/2308.14075v1
- Date: Sun, 27 Aug 2023 11:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 17:03:48.739900
- Title: FaceCoresetNet: Differentiable Coresets for Face Set Recognition
- Title(参考訳): FaceCoresetNet: 顔認識のための微分可能なコアセット
- Authors: Gil Shapira and Yosi Keller
- Abstract要約: 識別ディスクリプタは、所定の集合からの情報を集約する際の2つのポリシーのバランスをとる。
この作業は、微分可能なコアセット選択問題として、顔セット表現をフレーム化する。
我々は、IJB-BおよびIJB-Cデータセットに顔認証を設定するために、新しいSOTAを設定した。
- 参考スコア(独自算出の注目度): 16.879093388124964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In set-based face recognition, we aim to compute the most discriminative
descriptor from an unbounded set of images and videos showing a single person.
A discriminative descriptor balances two policies when aggregating information
from a given set. The first is a quality-based policy: emphasizing high-quality
and down-weighting low-quality images. The second is a diversity-based policy:
emphasizing unique images in the set and down-weighting multiple occurrences of
similar images as found in video clips which can overwhelm the set
representation. This work frames face-set representation as a differentiable
coreset selection problem. Our model learns how to select a small coreset of
the input set that balances quality and diversity policies using a learned
metric parameterized by the face quality, optimized end-to-end. The selection
process is a differentiable farthest-point sampling (FPS) realized by
approximating the non-differentiable Argmax operation with differentiable
sampling from the Gumbel-Softmax distribution of distances. The small coreset
is later used as queries in a self and cross-attention architecture to enrich
the descriptor with information from the whole set. Our model is
order-invariant and linear in the input set size. We set a new SOTA to set face
verification on the IJB-B and IJB-C datasets. Our code is publicly available.
- Abstract(参考訳): セットベース顔認識では,一人の人物を示す画像やビデオの非有界集合から最も識別性の高い記述子を計算することを目的としている。
判別ディスクリプタは、所定のセットから情報を集約する際に2つのポリシーのバランスをとる。
1つ目は品質に基づくポリシーで、高品質で低画質な画像を強調する。
2つめは多様性に基づくポリシーで、セット内のユニークな画像を強調し、セット表現を圧倒するビデオクリップに見られるような、類似したイメージの複数の発生をダウンウェイトする。
この作業は、微分可能なコアセット選択問題としてフェイスセット表現をフレーム化する。
我々のモデルは、顔の品質によってパラメータ化された学習指標を用いて、品質と多様性ポリシーのバランスをとる入力セットの小さなコアセットを選択する方法を学ぶ。
選択過程は, 距離のGumbel-Softmax分布から, 微分可能でないArgmax演算を微分可能サンプリングで近似することにより実現した微分可能遠点サンプリング(FPS)である。
小さなコアセットは後に、集合全体の情報で記述子を豊かにするために、自己および横断アーキテクチャのクエリとして使われる。
我々のモデルは、入力セットサイズにおいて順序不変で線形である。
我々は、IJB-BおよびIJB-Cデータセットに顔認証を設定するための新しいSOTAを設定した。
私たちのコードは公開されています。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - Learning Invariant Inter-pixel Correlations for Superpixel Generation [12.605604620139497]
学習可能な特徴は、制約付き判別能力を示し、不満足なピクセルグループ化性能をもたらす。
本稿では,不変画素間相関と統計特性を選択的に分離するContentangle Superpixelアルゴリズムを提案する。
4つのベンチマークデータセットの実験結果は、既存の最先端手法に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-28T09:46:56Z) - Interpolating between Images with Diffusion Models [2.6027967363792865]
2つの入力イメージ間の補間は、画像生成パイプラインから欠落するタスクである。
潜在拡散モデルを用いたゼロショット法を提案する。
一貫性を高めるために、あるいは追加の基準を指定するために、いくつかの候補を生成し、CLIPを使用して最高の画質のイメージを選択することができる。
論文 参考訳(メタデータ) (2023-07-24T07:03:22Z) - Parameter Efficient Local Implicit Image Function Network for Face
Segmentation [13.124513975412254]
顔解析は、人間の顔を含む画像のピクセルごとのラベル付けとして定義される。
我々は人間の顔の構造的整合性を利用して、軽量な顔解析法を提案する。
論文 参考訳(メタデータ) (2023-03-27T11:50:27Z) - Describing Sets of Images with Textual-PCA [89.46499914148993]
画像の集合を意味的に記述し、単一の画像の属性とセット内のバリエーションの両方をキャプチャする。
我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
論文 参考訳(メタデータ) (2022-10-21T17:10:49Z) - Matching Feature Sets for Few-Shot Image Classification [22.84472344406448]
セットベースの表現は本質的に、ベースクラスからの画像のよりリッチな表現を構築します。
私たちのアプローチは、SetFeatと呼ばれ、既存のエンコーダアーキテクチャに浅い自己アテンションメカニズムを組み込んでいます。
論文 参考訳(メタデータ) (2022-04-02T22:42:54Z) - Permuted AdaIN: Reducing the Bias Towards Global Statistics in Image
Classification [97.81205777897043]
近年の研究では、畳み込みニューラルネットワーク分類器は形状を犠牲にしてテクスチャを過度に依存していることが示されている。
一方、形状と局所像の区別は類似しているが異なるが、一方、グローバル画像統計は異なる。
提案手法は,pAdaIN (Permuted Adaptive Instance Normalization) と呼ばれ,画像分類器の隠蔽層におけるグローバル統計の表現を減少させる。
論文 参考訳(メタデータ) (2020-10-09T16:38:38Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。
MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。
本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2020-06-15T18:07:44Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。