論文の概要: ORFormer: Occlusion-Robust Transformer for Accurate Facial Landmark Detection
- arxiv url: http://arxiv.org/abs/2412.13174v2
- Date: Tue, 14 Jan 2025 14:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:37.145806
- Title: ORFormer: Occlusion-Robust Transformer for Accurate Facial Landmark Detection
- Title(参考訳): ORFormer:Occlusion-Robust Transformer for accurate Facial Landmark Detection
- Authors: Jui-Che Chiang, Hou-Ning Hu, Bo-Syuan Hou, Chia-Yu Tseng, Yu-Lun Liu, Min-Hung Chen, Yen-Yu Lin,
- Abstract要約: ORFormerは、見えない領域を検出し、見えない部分から欠落した機能を回復することができる。
本手法は,下流FLDタスクに対して高品質なヒートマップをコンパイルする。
得られた熱マップを既存のFLD手法に組み込むことで,挑戦的なデータセット上での芸術的状況に対して好意的に機能する。
- 参考スコア(独自算出の注目度): 18.253063326787647
- License:
- Abstract: Although facial landmark detection (FLD) has gained significant progress, existing FLD methods still suffer from performance drops on partially non-visible faces, such as faces with occlusions or under extreme lighting conditions or poses. To address this issue, we introduce ORFormer, a novel transformer-based method that can detect non-visible regions and recover their missing features from visible parts. Specifically, ORFormer associates each image patch token with one additional learnable token called the messenger token. The messenger token aggregates features from all but its patch. This way, the consensus between a patch and other patches can be assessed by referring to the similarity between its regular and messenger embeddings, enabling non-visible region identification. Our method then recovers occluded patches with features aggregated by the messenger tokens. Leveraging the recovered features, ORFormer compiles high-quality heatmaps for the downstream FLD task. Extensive experiments show that our method generates heatmaps resilient to partial occlusions. By integrating the resultant heatmaps into existing FLD methods, our method performs favorably against the state of the arts on challenging datasets such as WFLW and COFW.
- Abstract(参考訳): 顔のランドマーク検出(FLD)は大きな進歩を遂げているが、既存のFLD法は、オクルージョンのある顔や極端な照明条件やポーズなど、部分的には見えない顔のパフォーマンス低下に悩まされている。
この問題に対処するために,新しいトランスフォーマーベースの手法ORFormerを導入し,非可視領域を検出し,その欠落した特徴を可視部分から復元する。
具体的には、ORFormerは、各イメージパッチトークンと、メッセンジャートークンと呼ばれる1つの学習可能なトークンを関連付ける。
メッセンジャートークンはパッチ以外のすべての機能を集約する。
このようにして、パッチと他のパッチ間のコンセンサスを、正規とメッセンジャーの埋め込みの類似性を参照して評価し、非可視領域識別を可能にする。
提案手法は,メッセージトークンによって集約された特徴を持つ隠蔽パッチを復元する。
回収された機能を活用して、ORFormerは下流のFLDタスクのために高品質なヒートマップをコンパイルする。
広範囲な実験により, 本手法は部分閉塞に耐性のあるヒートマップを生成することがわかった。
得られた熱マップを既存のFLD手法に統合することにより、WFLWやCOFWといった挑戦的なデータセットに対する最先端の手法に対して好意的に機能する。
関連論文リスト
- Unsupervised Landmark Discovery Using Consistency Guided Bottleneck [63.624186864522315]
画像再構成に基づくパイプラインに一貫性のあるボトルネックを導入する。
本稿では,画像間のランドマーク対応を形成することによって,擬似スーパービジョンを得る手法を提案する。
この一貫性は、アダプティブ・ヒートマップの生成において発見されたランドマークの不確かさを変調する。
論文 参考訳(メタデータ) (2023-09-19T10:57:53Z) - Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for
Occluded Facial Expression Recognition [0.0]
提案手法は, 顔の隠蔽部分を, 隠蔽されていないかのように検出し, 認識し, FER精度を向上する。
まず、視覚変換器(ViT)ベースのオクルージョンパッチ検出器は、隠蔽されたパッチから潜在ベクトルのみを訓練することで、隠蔽された位置をマスクする。
第2に、ハイブリッド再構成ネットワークは、ViTと畳み込みニューラルネットワーク(CNN)を用いて、完全な画像としてマスキング位置を生成する。
最後に、式関連潜時ベクトル抽出器は、CNNに基づくクラスアクティベーションマップを適用して、すべての潜時ベクトルから式関連情報を検索し、使用する。
論文 参考訳(メタデータ) (2023-07-21T07:56:32Z) - Precise Facial Landmark Detection by Reference Heatmap Transformer [52.417964103227696]
より正確に顔のランドマークを検出するための参照ヒートマップ変換器(RHT)を提案する。
評価実験の結果,提案手法は文献における最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-14T12:26:48Z) - Feature Completion Transformer for Occluded Person Re-identification [25.159974510754992]
咬合者の再同定(Re-ID)は,咬合者の破壊による課題である。
特徴空間に隠された部分の意味情報を暗黙的に補完する特徴補完変換器(FCFormer)を提案する。
FCFormerは優れたパフォーマンスを実現し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法を上回ります。
論文 参考訳(メタデータ) (2023-03-03T01:12:57Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - EMface: Detecting Hard Faces by Exploring Receptive Field Pyraminds [10.926608043159918]
本稿では,特徴ピラミッドの表現能力を高めるための簡易かつ効果的な手法を提案する。
検出された顔の様々なスケールに基づいて、各特徴マップで異なる受容場を適応的に学習することができる。
提案手法は,最先端性能を達成しつつ,推論速度を著しく向上させることができる。
論文 参考訳(メタデータ) (2021-05-21T03:01:37Z) - Unsupervised Learning Facial Parameter Regressor for Action Unit
Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。
提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文 参考訳(メタデータ) (2020-08-20T09:49:13Z) - Multi-Scale Thermal to Visible Face Verification via Attribute Guided
Synthesis [55.29770222566124]
可視画像から抽出した属性を用いて、熱画像から属性保存された可視画像を合成し、クロスモーダルマッチングを行う。
抽出した属性によって導かれる熱画像から可視像を合成するために, 新規なマルチスケールジェネレータを提案する。
事前訓練されたVGG-Faceネットワークを利用して、合成画像と入力可視画像から特徴を抽出し、検証を行う。
論文 参考訳(メタデータ) (2020-04-20T01:45:05Z) - Pose-guided Visible Part Matching for Occluded Person ReID [80.81748252960843]
本稿では、ポーズ誘導による特徴の識別を共同で学習し、その部分の可視性を自己判断する Pose-Guided Visible Part Matching (PVPM) 法を提案する。
実験結果から,提案手法は最先端手法と競合する性能を示した。
論文 参考訳(メタデータ) (2020-04-01T04:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。