論文の概要: Learning to Cluster Faces via Transformer
- arxiv url: http://arxiv.org/abs/2104.11502v1
- Date: Fri, 23 Apr 2021 09:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:06:46.820669
- Title: Learning to Cluster Faces via Transformer
- Title(参考訳): Transformerによる顔のクラスタリングの学習
- Authors: Jinxing Ye, Xioajiang Peng, Baigui Sun, Kai Wang, Xiuyu Sun, Hao Li,
Hanqing Wu
- Abstract要約: 顔クラスタリングは、自動顔アノテーションや検索などのアプリケーションに便利なツールです。
従来のクラスタリング手法は、個々の画像と隣人との関係を無視する。
教師付き顔クラスタリングのためのFace Transformerを導入する。
- 参考スコア(独自算出の注目度): 8.285052859942443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face clustering is a useful tool for applications like automatic face
annotation and retrieval. The main challenge is that it is difficult to cluster
images from the same identity with different face poses, occlusions, and image
quality. Traditional clustering methods usually ignore the relationship between
individual images and their neighbors which may contain useful context
information. In this paper, we repurpose the well-known Transformer and
introduce a Face Transformer for supervised face clustering. In Face
Transformer, we decompose the face clustering into two steps: relation encoding
and linkage predicting. Specifically, given a face image, a \textbf{relation
encoder} module aggregates local context information from its neighbors and a
\textbf{linkage predictor} module judges whether a pair of images belong to the
same cluster or not. In the local linkage graph view, Face Transformer can
generate more robust node and edge representations compared to existing
methods. Experiments on both MS-Celeb-1M and DeepFashion show that our method
achieves state-of-the-art performance, e.g., 91.12\% in pairwise F-score on
MS-Celeb-1M.
- Abstract(参考訳): フェイスクラスタリングは、自動顔アノテーションや検索のようなアプリケーションに有用なツールである。
主な課題は、異なる顔のポーズ、オクルージョン、画像の品質を持つ同一のアイデンティティから画像をクラスタリングすることが難しいことである。
従来のクラスタリング手法は通常、有用なコンテキスト情報を含む個々の画像とその隣同士の関係を無視する。
本稿では,よく知られたTransformerを再利用し,顔クラスタリングのためのFace Transformerを導入する。
Face Transformerでは、顔クラスタリングをリレーションエンコーディングとリンク予測の2つのステップに分解する。
具体的には、顔画像が与えられたとき、 \textbf{relation encoder} モジュールは隣人からローカルコンテキスト情報を集約し、 \textbf{linkage predictor} モジュールは、1対のイメージが同じクラスタに属するかどうかを判断する。
ローカルリンクグラフビューでは、face transformerは既存の方法よりも堅牢なノードとエッジ表現を生成することができる。
また,MS-Celeb-1MとDeepFashionの両実験から,MS-Celeb-1M上でのFスコアの対数91.12\%といった最先端性能が得られた。
関連論文リスト
- Optimal-Landmark-Guided Image Blending for Face Morphing Attacks [8.024953195407502]
本稿では,最適なランドマーク誘導画像ブレンディングを用いた顔形態形成攻撃を行うための新しい手法を提案する。
提案手法は, ランドマークの最適化とグラフ畳み込みネットワーク(GCN)によるランドマークと外観特徴の組み合わせにより, 従来のアプローチの限界を克服する。
論文 参考訳(メタデータ) (2024-01-30T03:45:06Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MorphGANFormer: Transformer-based Face Morphing and De-Morphing [55.211984079735196]
顔変形に対するスタイルGANベースのアプローチが主要な技術である。
本稿では,顔の変形に対する変換器ベースの代替手段を提案し,その利点をStyleGANベースの方法と比較した。
論文 参考訳(メタデータ) (2023-02-18T19:09:11Z) - Self-supervised Video-centralised Transformer for Video Face Clustering [58.12996668434134]
本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
論文 参考訳(メタデータ) (2022-03-24T16:38:54Z) - Learning Disentangled Representation for One-shot Progressive Face
Swapping [65.98684203654908]
ジェネレーティブ・アドバーサリアル・ネットワークに基づくワンショット・フェイススワップのためのシンプルで効率的なFaceSwapperを提案する。
提案手法は,不整合表現モジュールと意味誘導融合モジュールから構成される。
その結果,本手法は,トレーニングサンプルの少ないベンチマークで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-24T11:19:04Z) - FaceMap: Towards Unsupervised Face Clustering via Map Equation [45.72096482531776]
顔のクラスタリングは、拡張現実やフォトアルバム管理といった関連アプリケーションの爆発により、コンピュータビジョンにおいて不可欠なタスクである。
我々は、非重複コミュニティ検出のプロセスとして、顔クラスタリングを定式化することにより、FaceMapと呼ばれる効果的な教師なし手法を開発した。
アブレーション研究による実験では、FaceMapは既存の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-03-21T03:23:09Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。