論文の概要: RePFormer: Refinement Pyramid Transformer for Robust Facial Landmark
Detection
- arxiv url: http://arxiv.org/abs/2207.03917v1
- Date: Fri, 8 Jul 2022 14:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 14:05:44.295649
- Title: RePFormer: Refinement Pyramid Transformer for Robust Facial Landmark
Detection
- Title(参考訳): RePFormer:ロバストな顔ランドマーク検出のためのリファインメントピラミッド変換器
- Authors: Jinpeng Li, Haibo Jin, Shengcai Liao, Ling Shao, Pheng-Ann Heng
- Abstract要約: 顔のランドマーク検出タスクをピラミッド記憶に沿ったランドマーククエリの精製として定式化する。
具体的には、ピラミッドトランスフォーマーヘッド(PTH)を導入し、ランドマーク間の関係とランドマークとクロススケールコンテキストの間の異種関係の両方を構築する。
動的ランドマークリファインメント(DLR)モジュールは、ランドマークレグレッションをエンドツーエンドのリファインメント手順に分解するために設計されている。
- 参考スコア(独自算出の注目度): 131.1478251760399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a Refinement Pyramid Transformer (RePFormer) for robust
facial landmark detection. Most facial landmark detectors focus on learning
representative image features. However, these CNN-based feature representations
are not robust enough to handle complex real-world scenarios due to ignoring
the internal structure of landmarks, as well as the relations between landmarks
and context. In this work, we formulate the facial landmark detection task as
refining landmark queries along pyramid memories. Specifically, a pyramid
transformer head (PTH) is introduced to build both homologous relations among
landmarks and heterologous relations between landmarks and cross-scale
contexts. Besides, a dynamic landmark refinement (DLR) module is designed to
decompose the landmark regression into an end-to-end refinement procedure,
where the dynamically aggregated queries are transformed to residual
coordinates predictions. Extensive experimental results on four facial landmark
detection benchmarks and their various subsets demonstrate the superior
performance and high robustness of our framework.
- Abstract(参考訳): 本稿では,顔のランドマーク検出のためのRefinement Pyramid Transformer (RePFormer)を提案する。
ほとんどの顔のランドマーク検出器は、代表的画像特徴の学習に焦点を当てている。
しかし、これらのCNNベースの特徴表現はランドマークの内部構造を無視し、ランドマークとコンテキストの関係を無視するため、複雑な現実世界のシナリオを扱うには不十分である。
本研究では,顔のランドマーク検出タスクを,ピラミッド記憶に沿ったランドマーククエリの精製として定式化する。
具体的には、ピラミッドトランスフォーマーヘッド(PTH)を導入し、ランドマーク間のホモロジー関係とランドマークとクロススケールコンテキストの間の異種関係の両方を構築する。
さらに、動的ランドマークリファインメント(dlr)モジュールは、ランドマークレグレッションをエンドツーエンドリファインメント手順に分解するように設計されており、動的に集約されたクエリが残留座標予測に変換される。
4つの顔のランドマーク検出ベンチマークとそれらの様々なサブセットによる大規模な実験結果から、我々のフレームワークの優れた性能と高い堅牢性を示す。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - Precise Facial Landmark Detection by Reference Heatmap Transformer [52.417964103227696]
より正確に顔のランドマークを検出するための参照ヒートマップ変換器(RHT)を提案する。
評価実験の結果,提案手法は文献における最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-14T12:26:48Z) - Towards Accurate Facial Landmark Detection via Cascaded Transformers [14.74021483826222]
本稿では,カスケードトランスを用いた正確な顔のランドマーク検出手法を提案する。
トランスにおける自己注意によって、我々のモデルは本質的にランドマーク間の構造化された関係を活用できる。
このモデルでは, 目標ランドマークの周囲に最も関連性の高い画像の特徴を抽出し, 座標予測を行う。
論文 参考訳(メタデータ) (2022-08-23T08:42:13Z) - Sparse Local Patch Transformer for Robust Face Alignment and Landmarks
Inherent Relation Learning [11.150290581561725]
固有関係を学習するためのスパース局所パッチ変換器(S)を提案する。
提案手法は計算量が少なくて最先端のレベルで機能する。
論文 参考訳(メタデータ) (2022-03-13T01:15:23Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z) - Deep Structured Prediction for Facial Landmark Detection [59.60946775628646]
本稿では,深層畳み込みネットワークと条件付きランダムフィールドを組み合わせた深層構造顔のランドマーク検出手法を提案する。
顔のランドマーク検出における最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-18T17:09:24Z) - Feature Pyramid Grids [140.11116687047058]
本稿では,深い多経路特徴ピラミッドであるFeature Pyramid Grids (FPG)を提案する。
FPGは、同様の計算コストで性能を大幅に向上させることで、シングルパスの特徴ピラミッドネットワークを改善することができる。
論文 参考訳(メタデータ) (2020-04-07T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。