論文の概要: FGTBT: Frequency-Guided Task-Balancing Transformer for Unified Facial Landmark Detection
- arxiv url: http://arxiv.org/abs/2601.12863v1
- Date: Mon, 19 Jan 2026 09:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.828572
- Title: FGTBT: Frequency-Guided Task-Balancing Transformer for Unified Facial Landmark Detection
- Title(参考訳): FGTBT:統合顔認識のための周波数誘導型タスクバランシング変換器
- Authors: Jun Wan, Xinyu Xiong, Ning Chen, Zhihui Lai, Jie Zhou, Wenwen Min,
- Abstract要約: 本稿では,FGTBT ( Frequency-Guided Task-Balancing Transformer) を提案する。
ファイングラインド・マルチタスク・バランシング・ロス(FMB-loss)は、個々のランドマークに重みを割り当てることで、粗いタスクレベルのバランシングを越えている。
周波数誘導構造認識(FGSA)モデルは、周波数誘導構造注入と規則化を利用して顔構造制約の学習を支援するように設計されている。
- 参考スコア(独自算出の注目度): 23.621221246543627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning based facial landmark detection (FLD) methods have achieved considerable success. However, in challenging scenarios such as large pose variations, illumination changes, and facial expression variations, they still struggle to accurately capture the geometric structure of the face, resulting in performance degradation. Moreover, the limited size and diversity of existing FLD datasets hinder robust model training, leading to reduced detection accuracy. To address these challenges, we propose a Frequency-Guided Task-Balancing Transformer (FGTBT), which enhances facial structure perception through frequency-domain modeling and multi-dataset unified training. Specifically, we propose a novel Fine-Grained Multi-Task Balancing loss (FMB-loss), which moves beyond coarse task-level balancing by assigning weights to individual landmarks based on their occurrence across datasets. This enables more effective unified training and mitigates the issue of inconsistent gradient magnitudes. Additionally, a Frequency-Guided Structure-Aware (FGSA) model is designed to utilize frequency-guided structure injection and regularization to help learn facial structure constraints. Extensive experimental results on popular benchmark datasets demonstrate that the integration of the proposed FMB-loss and FGSA model into our FGTBT framework achieves performance comparable to state-of-the-art methods. The code is available at https://github.com/Xi0ngxinyu/FGTBT.
- Abstract(参考訳): 近年,深層学習に基づく顔のランドマーク検出(FLD)法が大きな成功を収めている。
しかし、大きなポーズのバリエーション、照明の変化、表情のバリエーションといった挑戦的なシナリオでは、顔の幾何学的構造を正確に捉えるのに苦労し、パフォーマンスが低下する。
さらに、既存のFLDデータセットのサイズと多様性の制限により、堅牢なモデルトレーニングが妨げられ、検出精度が低下する。
これらの課題に対処するため、周波数領域モデリングとマルチデータセット統合トレーニングにより顔構造知覚を向上させる周波数誘導タスクバランシング変換器(FGTBT)を提案する。
具体的には、データセット間で発生する重みを個々のランドマークに割り当てることで、タスクレベルの粗いバランスを超越した、ファイングラインドマルチタスクバランスロス(FMB-loss)を提案する。
これにより、より効果的な統一的なトレーニングが可能になり、一貫性のない勾配のマグニチュードの問題を軽減することができる。
さらに、周波数誘導構造認識モデル(FGSA)は、周波数誘導構造注入と規則化を利用して顔構造制約の学習を支援するように設計されている。
提案するFMB-lossとFGSAモデルをFGTBTフレームワークに統合することで,最先端の手法に匹敵する性能が得られることを示す。
コードはhttps://github.com/Xi0ngxinyu/FGTBTで入手できる。
関連論文リスト
- FRET: Feature Redundancy Elimination for Test Time Adaptation [4.793572485305334]
テスト時間適応(TTA)は、トレーニングデータからの分散シフトを示すテストデータに直面した場合、ディープラーニングモデルの一般化を促進することを目的としている。
実際には、TTAのドメインシフトが増大するにつれて、埋め込みにおける特徴冗長性が増大する傾向にある。
本稿では,テスト時間適応のための特徴冗長性除去(FRET)について紹介する。
論文 参考訳(メタデータ) (2025-05-15T18:22:56Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Physics-informed DeepCT: Sinogram Wavelet Decomposition Meets Masked Diffusion [7.896463959617656]
拡散モデルではスパース・ビュー・コンピュート・トモグラフィー(SVCT)の再建に有意な可能性がある。
SVCT再構成のためのSinogram-based Wavelet random decomposition and Random mask diffusion Model (SWARM)を提案する。
論文 参考訳(メタデータ) (2025-01-17T03:16:15Z) - TopoFR: A Closer Look at Topology Alignment on Face Recognition [58.45515807380505]
PTSAと呼ばれるトポロジカル構造アライメント戦略とSDEという硬質試料マイニング戦略を利用する新しいFRモデルであるTopoFRを提案する。
PTSAは永続ホモロジーを用いて入力空間と潜在空間の位相構造を整列し、構造情報を効果的に保存し、FRモデルの一般化性能を向上させる。
一般的な顔のベンチマーク実験の結果は、最先端の手法よりもTopoFRの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-10-14T14:58:30Z) - Enhancing Test Time Adaptation with Few-shot Guidance [62.49199492255226]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - BFRFormer: Transformer-based generator for Real-World Blind Face
Restoration [37.77996097891398]
本稿では,トランスフォーマーをベースとしたブラインドフェイス復元手法BFRFormerを提案する。
提案手法は, 合成データセットと実世界の4つのデータセットにおいて, 最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-02-29T02:31:54Z) - Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。