論文の概要: Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the
Wild
- arxiv url: http://arxiv.org/abs/2003.03771v3
- Date: Sat, 11 Sep 2021 04:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:35:40.432786
- Title: Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the
Wild
- Title(参考訳): ピクセル・イン・ピクセルネット:野生の効率的な顔ランドマーク検出に向けて
- Authors: Haibo Jin, Shengcai Liao, Ling Shao
- Abstract要約: 顔のランドマークを検出するために,Pixel-in-Pixel Net(PIPNet)を提案する。
提案モデルは,熱マップ回帰に基づく新しい検出ヘッドを備える。
PIPNetのクロスドメイン一般化能力をさらに向上するため,カリキュラムによる自己学習を提案する。
- 参考スコア(独自算出の注目度): 104.61677518999976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, heatmap regression models have become popular due to their superior
performance in locating facial landmarks. However, three major problems still
exist among these models: (1) they are computationally expensive; (2) they
usually lack explicit constraints on global shapes; (3) domain gaps are
commonly present. To address these problems, we propose Pixel-in-Pixel Net
(PIPNet) for facial landmark detection. The proposed model is equipped with a
novel detection head based on heatmap regression, which conducts score and
offset predictions simultaneously on low-resolution feature maps. By doing so,
repeated upsampling layers are no longer necessary, enabling the inference time
to be largely reduced without sacrificing model accuracy. Besides, a simple but
effective neighbor regression module is proposed to enforce local constraints
by fusing predictions from neighboring landmarks, which enhances the robustness
of the new detection head. To further improve the cross-domain generalization
capability of PIPNet, we propose self-training with curriculum. This training
strategy is able to mine more reliable pseudo-labels from unlabeled data across
domains by starting with an easier task, then gradually increasing the
difficulty to provide more precise labels. Extensive experiments demonstrate
the superiority of PIPNet, which obtains state-of-the-art results on three out
of six popular benchmarks under the supervised setting. The results on two
cross-domain test sets are also consistently improved compared to the
baselines. Notably, our lightweight version of PIPNet runs at 35.7 FPS and 200
FPS on CPU and GPU, respectively, while still maintaining a competitive
accuracy to state-of-the-art methods. The code of PIPNet is available at
https://github.com/jhb86253817/PIPNet.
- Abstract(参考訳): 近年、顔のランドマークの配置における優れた性能のために、熱マップ回帰モデルが人気を博している。
しかし,(1)計算コストが高い,(2)大域的な形状に対する明示的な制約が欠如している,(3)領域ギャップが一般的である,という3つの主要な問題が存在する。
これらの問題を解決するために,顔のランドマーク検出のためのPIPNetを提案する。
提案モデルは,低分解能特徴写像上でスコアとオフセットの予測を同時に行うヒートマップ回帰に基づく新しい検出ヘッドを備える。
これにより、繰り返しのアップサンプリング層は不要になり、モデルの精度を犠牲にすることなく、推論時間を大幅に削減できる。
さらに, 近傍のランドマークからの予測を融合させることにより局所的制約を強制するため, 新しい検出ヘッドのロバスト性を高めるため, 単純だが効果的な隣接回帰モジュールを提案する。
PIPNetのクロスドメイン一般化能力をさらに向上するため,カリキュラムによる自己学習を提案する。
このトレーニング戦略は、より簡単なタスクから始めることで、ドメイン間でラベルのないデータからより信頼性の高い擬似ラベルを抽出し、より正確なラベルを提供することの難しさを徐々に増すことができる。
PIPNetは教師付き環境下で6つの人気のあるベンチマークのうち3つに対して最先端の結果を得る。
2つのクロスドメインテストセットの結果も、ベースラインと比較して一貫して改善されている。
特に、私たちの軽量バージョンのPIPNetは、それぞれCPUとGPU上で35.7 FPSと200 FPSで動作します。
PIPNetのコードはhttps://github.com/jhb86253817/PIPNetで公開されている。
関連論文リスト
- Deep Loss Convexification for Learning Iterative Models [11.36644967267829]
点雲登録のための反復的最近点(ICP)のような反復的手法は、しばしば悪い局所最適性に悩まされる。
我々は,各地真実の周囲に凸景観を形成する学習を提案する。
論文 参考訳(メタデータ) (2024-11-16T01:13:04Z) - POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search [34.50794776762681]
本稿では,高精度符号化・復号化フレームワークであるParallel Optimal Position Search (POPoS)を紹介する。
Pseudo-range multilateration は、ヒートマップエラーを補正し、ランドマークのローカライゼーションの精度を高めるために使用される。
1ステップ並列アルゴリズムを導入し、計算効率を大幅に向上し、処理時間を短縮する。
論文 参考訳(メタデータ) (2024-10-12T16:28:40Z) - Deep Point Cloud Normal Estimation via Triplet Learning [12.271669779096076]
点雲の新しい正規推定法を提案する。
a) 局所パッチの表現を学習する特徴符号化と(b) 学習した表現を入力として取り、通常のベクトルを回帰する正規推定である。
本手法は,シャープな特徴を保存し,CAD形状の正常な推定結果を改善する。
論文 参考訳(メタデータ) (2021-10-20T11:16:00Z) - Rethinking Counting and Localization in Crowds:A Purely Point-Based
Framework [59.578339075658995]
そこで本稿では,共同クラウドカウントと個別ローカライゼーションのための純粋にポイントベースのフレームワークを提案する。
我々は、P2PNet(Point to Point Network)と呼ばれる、このフレームワークの下で直感的なソリューションを設計する。
論文 参考訳(メタデータ) (2021-07-27T11:41:50Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - Gaussian Vector: An Efficient Solution for Facial Landmark Detection [3.058685580689605]
本稿では,空間情報を保存し,出力サイズを小さくし,後処理を簡素化する新しい手法であるガウスベクトルを提案する。
提案手法を300W, COFW, WFLW, JDランドマークで評価した。
論文 参考訳(メタデータ) (2020-10-03T10:15:41Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement [54.29252286561449]
グラフPCNNと呼ばれる2段階のグラフベースおよびモデルに依存しないフレームワークを提案する。
第1段階では、粗局化結果を得るために熱マップ回帰ネットワークを適用し、ガイドポイントと呼ばれる一連の提案キーポイントをサンプリングする。
第2段階では、各案内点について、ローカライゼーションにより異なる視覚特徴を抽出する。
ガイドされた点間の関係は、より正確なローカライゼーション結果を得るためにグラフポーズ精製モジュールによって探索される。
論文 参考訳(メタデータ) (2020-07-21T04:59:15Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。