論文の概要: SegFace: Face Segmentation of Long-Tail Classes
- arxiv url: http://arxiv.org/abs/2412.08647v1
- Date: Wed, 11 Dec 2024 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:02.059056
- Title: SegFace: Face Segmentation of Long-Tail Classes
- Title(参考訳): SegFace: ロングテールクラスの顔セグメンテーション
- Authors: Kartik Narayan, Vibashan VS, Vishal M. Patel,
- Abstract要約: 顔解析は、顔の編集、顔のスワップ、顔の化粧など、様々な高度な応用に必須である。
これらの頻繁なクラスはロングテールクラスと呼ばれ、ヘッドクラスとして知られるより頻繁なクラスによって隠蔽される。
従来の手法、主にCNNベースの手法は、訓練中にヘッドクラスに支配される傾向があり、結果としてロングテールクラスに対する準最適表現が生じる。
学習可能なクラス固有のトークンを利用する軽量トランスフォーマーモデルを用いた,シンプルで効率的なアプローチであるSegFaceを提案する。
- 参考スコア(独自算出の注目度): 30.86305376082235
- License:
- Abstract: Face parsing refers to the semantic segmentation of human faces into key facial regions such as eyes, nose, hair, etc. It serves as a prerequisite for various advanced applications, including face editing, face swapping, and facial makeup, which often require segmentation masks for classes like eyeglasses, hats, earrings, and necklaces. These infrequently occurring classes are called long-tail classes, which are overshadowed by more frequently occurring classes known as head classes. Existing methods, primarily CNN-based, tend to be dominated by head classes during training, resulting in suboptimal representation for long-tail classes. Previous works have largely overlooked the problem of poor segmentation performance of long-tail classes. To address this issue, we propose SegFace, a simple and efficient approach that uses a lightweight transformer-based model which utilizes learnable class-specific tokens. The transformer decoder leverages class-specific tokens, allowing each token to focus on its corresponding class, thereby enabling independent modeling of each class. The proposed approach improves the performance of long-tail classes, thereby boosting overall performance. To the best of our knowledge, SegFace is the first work to employ transformer models for face parsing. Moreover, our approach can be adapted for low-compute edge devices, achieving 95.96 FPS. We conduct extensive experiments demonstrating that SegFace significantly outperforms previous state-of-the-art models, achieving a mean F1 score of 88.96 (+2.82) on the CelebAMask-HQ dataset and 93.03 (+0.65) on the LaPa dataset. Code: https://github.com/Kartik-3004/SegFace
- Abstract(参考訳): 顔解析とは、人間の顔を目、鼻、髪などの重要な顔領域にセグメンテーションすることを指す。
顔の編集、顔の交換、顔の化粧など、様々な高度な応用の前提条件として機能し、眼鏡、帽子、イヤリング、ネックレスなどのクラスのセグメンテーションマスクを必要とすることが多い。
これらの頻繁なクラスはロングテールクラスと呼ばれ、ヘッドクラスとして知られるより頻繁なクラスによって隠蔽される。
既存の方法(主にCNNベース)は、トレーニング中にヘッドクラスに支配される傾向があり、ロングテールクラスに最適化された表現をもたらす。
従来の研究は、ロングテールクラスのセグメンテーション性能の低さをほとんど見落としていた。
この問題に対処するために,学習可能なクラス固有のトークンを利用する軽量トランスフォーマーモデルを用いた,シンプルで効率的なアプローチであるSegFaceを提案する。
トランスフォーマーデコーダはクラス固有のトークンを利用して、各トークンが対応するクラスに集中できるようにし、各クラスの独立したモデリングを可能にする。
提案手法により,ロングテールクラスの性能が向上し,全体的な性能が向上する。
私たちの知る限りでは、SegFaceは、顔解析にトランスフォーマーモデルを採用する最初の作業です。
さらに,提案手法を低消費電力エッジデバイスに適用し,95.96 FPSを実現した。
我々は、SegFaceが従来の最先端モデルを大幅に上回り、CelebAMask-HQデータセットで88.96(+2.82)、LaPaデータセットで93.03(+0.65)の平均F1スコアを達成していることを示す広範な実験を行った。
コード:https://github.com/Kartik-3004/SegFace
関連論文リスト
- MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - Toward High Quality Facial Representation Learning [58.873356953627614]
我々はMask Contrastive Face (MCF)と呼ばれる自己教師型事前学習フレームワークを提案する。
トレーニング済みの視覚バックボーンの特徴マップを監視項目として使用し、マスク画像モデリングに部分的にトレーニング済みのデコーダを使用する。
このモデルはAFLW-19顔アライメントの0.932 NME_diag$とLaPa顔解析の93.96 F1スコアを達成する。
論文 参考訳(メタデータ) (2023-09-07T09:11:49Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - CAR: Class-aware Regularizations for Semantic Segmentation [20.947897583427192]
特徴学習におけるクラス内分散とクラス間距離を最適化するためのクラス認識正規化(CAR)手法を提案する。
本手法は,OCRやCPNetを含む既存のセグメンテーションモデルに容易に適用することができる。
論文 参考訳(メタデータ) (2022-03-14T15:02:48Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - Dynamic Class Queue for Large Scale Face Recognition In the Wild [45.3063075576461]
本研究は資源制約と長期クラス分布の計算に焦点をあてる。
これら2つの問題に対処するための動的クラスキュー(DCQ)を提案する。
大規模なデータセットでは、クラスのうち10%がすべてのクラスと同様のパフォーマンスを達成するのに十分であることを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-24T06:31:10Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - The surprising impact of mask-head architecture on novel class
segmentation [27.076315496682444]
マスクヘッドのアーキテクチャは,トレーニング中にマスクを観察しないクラスへの一般化において,驚くほど重要な役割を担っている。
また,マスクヘッドアーキテクチャを選択すれば,従来の文献で提案された特別なモジュールや損失を必要とせずに,部分的に監督されたCOCOベンチマーク上でSOTA結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T16:46:37Z) - A Facial Feature Discovery Framework for Race Classification Using Deep
Learning [3.5819286797572305]
本稿では,事前の顔分割フレームワークを用いたレース分類アルゴリズムを提案する。
ディープ畳み込みニューラルネットワーク(DCNN)を用いて顔分割モデルを構築した。
人種分類に有効な7つの顔の特徴について検討した。
論文 参考訳(メタデータ) (2021-03-29T06:33:04Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。