論文の概要: Supervision-by-Hallucination-and-Transfer: A Weakly-Supervised Approach for Robust and Precise Facial Landmark Detection
- arxiv url: http://arxiv.org/abs/2601.12919v1
- Date: Mon, 19 Jan 2026 10:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.85766
- Title: Supervision-by-Hallucination-and-Transfer: A Weakly-Supervised Approach for Robust and Precise Facial Landmark Detection
- Title(参考訳): Supervision-by-Hallucination-and-Transfer:ロバストかつ精密な顔のランドマーク検出のための弱スーパービジョンアプローチ
- Authors: Jun Wan, Yuanzhi Yao, Zhihui Lai, Jie Zhou, Xianxu Hou, Wenwen Min,
- Abstract要約: 我々は、より堅牢で正確なFLDのための、Supervision-by-Hallucination-and-Transfer (SHT) と呼ばれる弱い教師付きフレームワークを提案する。
FLDとフェイス幻覚タスクを取り入れることで、DHLNは低分解能入力で高分解能表現を学習することができる。
これは、顔の幻覚と顔のポーズ伝達タスクを統合することで、弱い制御されたFLDを探索する最初の研究である。
- 参考スコア(独自算出の注目度): 27.62828222242359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-precision facial landmark detection (FLD) relies on high-resolution deep feature representations. However, low-resolution face images or the compression (via pooling or strided convolution) of originally high-resolution images hinder the learning of such features, thereby reducing FLD accuracy. Moreover, insufficient training data and imprecise annotations further degrade performance. To address these challenges, we propose a weakly-supervised framework called Supervision-by-Hallucination-and-Transfer (SHT) for more robust and precise FLD. SHT contains two novel mutually enhanced modules: Dual Hallucination Learning Network (DHLN) and Facial Pose Transfer Network (FPTN). By incorporating FLD and face hallucination tasks, DHLN is able to learn high-resolution representations with low-resolution inputs for recovering both facial structures and local details and generating more effective landmark heatmaps. Then, by transforming faces from one pose to another, FPTN can further improve landmark heatmaps and faces hallucinated by DHLN for detecting more accurate landmarks. To the best of our knowledge, this is the first study to explore weakly-supervised FLD by integrating face hallucination and facial pose transfer tasks. Experimental results of both face hallucination and FLD demonstrate that our method surpasses state-of-the-art techniques.
- Abstract(参考訳): 高精度顔のランドマーク検出(FLD)は、高解像度の深部特徴表現に依存している。
しかし、低解像度の顔画像や、元々の高解像度画像の圧縮は、そのような特徴の学習を妨げるため、FLD精度を低下させる。
さらに、不十分なトレーニングデータと不正確なアノテーションにより、さらなるパフォーマンスが低下する。
これらの課題に対処するため、我々はより堅牢で正確なFLDのためのSupervision-by-Hallucination-and-Transfer(SHT)と呼ばれる弱い教師付きフレームワークを提案する。
SHTにはDHLN(Dual Hallucination Learning Network)とFPTN(Falcial Pose Transfer Network)の2つの新しいモジュールが含まれている。
FLDと顔の幻覚タスクを取り入れることで、DHLNは低解像度の入力で高解像度の表現を学習し、顔の構造と局所的な詳細の両方を復元し、より効果的なランドマークのヒートマップを生成することができる。
そして、あるポーズから別のポーズへと顔を変換することで、FPTNはランドマークのヒートマップをさらに改善し、DHLNによって幻覚され、より正確なランドマークを検出する。
我々の知る限りでは、顔の幻覚と顔のポーズ伝達タスクを統合することで、弱い制御されたFLDを探索する最初の研究である。
フェース幻覚とFLDの両方の実験結果から,本手法が最先端技術を上回ることが示された。
関連論文リスト
- One-Step Diffusion-based Real-World Image Super-Resolution with Visual Perception Distillation [53.24542646616045]
画像超解像(SR)生成に特化して設計された新しい視覚知覚拡散蒸留フレームワークであるVPD-SRを提案する。
VPD-SRは2つのコンポーネントから構成される: 明示的セマンティック・アウェア・スーパービジョン(ESS)と高周波知覚(HFP)損失。
提案したVPD-SRは,従来の最先端手法と教師モデルの両方と比較して,たった1ステップのサンプリングで優れた性能が得られる。
論文 参考訳(メタデータ) (2025-06-03T08:28:13Z) - Neural Point-based Volumetric Avatar: Surface-guided Neural Points for
Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。
具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。
設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文 参考訳(メタデータ) (2023-07-11T03:40:10Z) - EfficientSRFace: An Efficient Network with Super-Resolution Enhancement
for Accurate Face Detection [18.977044046941813]
顔検出では、密集した顔予測タスクにおいて、人間の集団の多数の小さな顔のような低解像度の顔が一般的である。
我々は,特徴レベルの超解像再構成ネットワークを導入し,効率的なSRFaceと呼ばれる検出器を開発した。
このモジュールはトレーニングプロセスにおいて補助的な役割を担い、推論時間を増やすことなく推論中に取り除くことができる。
論文 参考訳(メタデータ) (2023-06-04T06:49:44Z) - Pro-UIGAN: Progressive Face Hallucination from Occluded Thumbnails [53.080403912727604]
Inpainting Generative Adversarial Network, Pro-UIGANを提案する。
顔の形状を利用して、隠された小さな顔の補充とアップサンプリング(8*)を行う。
Pro-UIGANは、HR面を視覚的に満足させ、下流タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-02T02:29:24Z) - Heterogeneous Face Frontalization via Domain Agnostic Learning [74.86585699909459]
本研究では, 視覚領域における正面視を, ポーズのバリエーションで合成できるドメイン非依存学習型生成逆数ネットワーク(DAL-GAN)を提案する。
DAL-GANは、補助分類器を備えたジェネレータと、より優れた合成のために局所的およびグローバルなテクスチャ識別をキャプチャする2つの識別器から構成される。
論文 参考訳(メタデータ) (2021-07-17T20:41:41Z) - Face Hallucination via Split-Attention in Split-Attention Network [58.30436379218425]
畳み込みニューラルネットワーク(CNN)は、顔幻覚を促進するために広く用いられている。
顔の全体像とテクスチャの細部を同時に考慮し,新たな内部分割注意グループ(ESAG)を提案する。
これら2つの経路から特徴を融合させることにより、顔の構造の整合性と顔の詳細の忠実度が強化される。
論文 参考訳(メタデータ) (2020-10-22T10:09:31Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。