論文の概要: Towards Accurate Facial Landmark Detection via Cascaded Transformers
- arxiv url: http://arxiv.org/abs/2208.10808v1
- Date: Tue, 23 Aug 2022 08:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:18:05.146340
- Title: Towards Accurate Facial Landmark Detection via Cascaded Transformers
- Title(参考訳): カスケード変圧器による顔の正確なランドマーク検出に向けて
- Authors: Hui Li, Zidong Guo, Seon-Min Rhee, Seungju Han, Jae-Joon Han
- Abstract要約: 本稿では,カスケードトランスを用いた正確な顔のランドマーク検出手法を提案する。
トランスにおける自己注意によって、我々のモデルは本質的にランドマーク間の構造化された関係を活用できる。
このモデルでは, 目標ランドマークの周囲に最も関連性の高い画像の特徴を抽出し, 座標予測を行う。
- 参考スコア(独自算出の注目度): 14.74021483826222
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate facial landmarks are essential prerequisites for many tasks related
to human faces. In this paper, an accurate facial landmark detector is proposed
based on cascaded transformers. We formulate facial landmark detection as a
coordinate regression task such that the model can be trained end-to-end. With
self-attention in transformers, our model can inherently exploit the structured
relationships between landmarks, which would benefit landmark detection under
challenging conditions such as large pose and occlusion. During cascaded
refinement, our model is able to extract the most relevant image features
around the target landmark for coordinate prediction, based on deformable
attention mechanism, thus bringing more accurate alignment. In addition, we
propose a novel decoder that refines image features and landmark positions
simultaneously. With few parameter increasing, the detection performance
improves further. Our model achieves new state-of-the-art performance on
several standard facial landmark detection benchmarks, and shows good
generalization ability in cross-dataset evaluation.
- Abstract(参考訳): 正確な顔のランドマークは、人間の顔に関連する多くのタスクに必須の前提条件である。
本稿では,カスケード変圧器を用いた顔ランドマーク検出法を提案する。
顔のランドマーク検出を、モデルがエンドツーエンドでトレーニングできるような座標回帰タスクとして定式化する。
トランスフォーマーの自己着脱により,ランドマーク間の構造的関係を本質的に活用することが可能となり,大きなポーズや咬合などの困難な条件下でのランドマーク検出に有用である。
カスケードリファインメントの間,モデルでは,変形可能な注意機構に基づいて,目標ランドマーク周辺の最も関連性の高い画像特徴を抽出し,座標予測を行うことで,より正確なアライメントを実現する。
さらに,画像特徴とランドマーク位置を同時に洗練する新しいデコーダを提案する。
パラメータの増加が少ないため、検出性能はさらに向上する。
本モデルは,いくつかの標準顔ランドマーク検出ベンチマークにおいて,新たな最先端性能を達成し,クロスデータセット評価において優れた一般化能力を示す。
関連論文リスト
- Infinite 3D Landmarks: Improving Continuous 2D Facial Landmark Detection [9.633565294243173]
具体的なアーキテクチャ変更の組み合わせによって,その正確性と時間的安定性が向上することを示す。
ランドマーク検出器とともにトレーニングされた空間変圧器ネットワークの使用を教師なしで解析する。
ランドマーク予測器の出力ヘッドを変更して標準3次元空間のランドマークを推定することにより、精度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2024-05-30T14:54:26Z) - Towards Multi-domain Face Landmark Detection with Synthetic Data from
Diffusion model [27.307563102526192]
深層学習に基づく眼球内顔の顔のランドマーク検出は、大幅な改善が達成された。
他の領域(漫画、似顔絵など)では、顔のランドマーク検出にはまだ課題がある。
限られたデータセットと事前学習拡散モデルを効果的に活用する2段階のトレーニング手法を設計する。
提案手法は,マルチドメイン顔ランドマーク検出における既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-24T02:35:32Z) - DeepFidelity: Perceptual Forgery Fidelity Assessment for Deepfake
Detection [67.3143177137102]
ディープフェイク検出(Deepfake detection)とは、画像やビデオにおいて、人工的に生成された顔や編集された顔を検出すること。
本稿では,実顔と偽顔とを適応的に識別するDeepFidelityという新しいDeepfake検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T07:19:45Z) - Enhancing Landmark Detection in Cluttered Real-World Scenarios with
Vision Transformers [2.900522306460408]
本研究は,視覚的位置認識におけるランドマーク検出の進歩に寄与する。
これは、現実のシナリオを散らかすことによって引き起こされる課題を克服するために、ビジョントランスフォーマーを活用する可能性を示している。
論文 参考訳(メタデータ) (2023-08-25T21:01:01Z) - KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired
True-Range Multilateration [28.96448680048584]
KeyPoint Positioning System (KeyPosS) は、関心点と完全な畳み込みネットワークによって予測されるアンカー点の距離を三角にして正確なランドマーク座標を導出する最初のフレームワークである。
4つのデータセットの実験では、計算オーバーヘッドが最小限であるにもかかわらず、KeyPosSは、解像度の低い設定で既存のメソッドを上回り、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-05-25T19:30:21Z) - Precise Facial Landmark Detection by Reference Heatmap Transformer [52.417964103227696]
より正確に顔のランドマークを検出するための参照ヒートマップ変換器(RHT)を提案する。
評価実験の結果,提案手法は文献における最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-14T12:26:48Z) - RePFormer: Refinement Pyramid Transformer for Robust Facial Landmark
Detection [131.1478251760399]
顔のランドマーク検出タスクをピラミッド記憶に沿ったランドマーククエリの精製として定式化する。
具体的には、ピラミッドトランスフォーマーヘッド(PTH)を導入し、ランドマーク間の関係とランドマークとクロススケールコンテキストの間の異種関係の両方を構築する。
動的ランドマークリファインメント(DLR)モジュールは、ランドマークレグレッションをエンドツーエンドのリファインメント手順に分解するために設計されている。
論文 参考訳(メタデータ) (2022-07-08T14:12:26Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Pretrained equivariant features improve unsupervised landmark discovery [69.02115180674885]
我々は、この課題を克服する2段階の教師なしアプローチを、強力なピクセルベースの特徴を初めて学習することによって定式化する。
本手法は,いくつかの難解なランドマーク検出データセットにおいて最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-04-07T05:42:11Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。