論文の概要: Precise Facial Landmark Detection by Dynamic Semantic Aggregation Transformer
- arxiv url: http://arxiv.org/abs/2412.00740v1
- Date: Sun, 01 Dec 2024 09:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:42.730631
- Title: Precise Facial Landmark Detection by Dynamic Semantic Aggregation Transformer
- Title(参考訳): ダイナミック・セマンティック・アグリゲーション・トランスによる顔の高精度ランドマーク検出
- Authors: Jun Wan, He Liu, Yujia Wu, Zhihui Lai, Wenwen Min, Jun Liu,
- Abstract要約: ディープニューラルネットワーク法は、顔アライメント分野において重要な役割を担っている。
本稿では,より差別的で代表的な特徴学習のための動的セマンティック・アグリゲーション・トランスフォーマ(DSAT)を提案する。
提案するDSATは,文学における最先端モデルよりも優れている。
- 参考スコア(独自算出の注目度): 29.484887366344363
- License:
- Abstract: At present, deep neural network methods have played a dominant role in face alignment field. However, they generally use predefined network structures to predict landmarks, which tends to learn general features and leads to mediocre performance, e.g., they perform well on neutral samples but struggle with faces exhibiting large poses or occlusions. Moreover, they cannot effectively deal with semantic gaps and ambiguities among features at different scales, which may hinder them from learning efficient features. To address the above issues, in this paper, we propose a Dynamic Semantic-Aggregation Transformer (DSAT) for more discriminative and representative feature (i.e., specialized feature) learning. Specifically, a Dynamic Semantic-Aware (DSA) model is first proposed to partition samples into subsets and activate the specific pathways for them by estimating the semantic correlations of feature channels, making it possible to learn specialized features from each subset. Then, a novel Dynamic Semantic Specialization (DSS) model is designed to mine the homogeneous information from features at different scales for eliminating the semantic gap and ambiguities and enhancing the representation ability. Finally, by integrating the DSA model and DSS model into our proposed DSAT in both dynamic architecture and dynamic parameter manners, more specialized features can be learned for achieving more precise face alignment. It is interesting to show that harder samples can be handled by activating more feature channels. Extensive experiments on popular face alignment datasets demonstrate that our proposed DSAT outperforms state-of-the-art models in the literature.Our code is available at https://github.com/GERMINO-LiuHe/DSAT.
- Abstract(参考訳): 現在、ディープニューラルネットワーク法は顔アライメント分野において重要な役割を担っている。
しかし、一般的には事前に定義されたネットワーク構造を用いてランドマークを予測し、一般的な特徴を学習し、中性サンプルでよく機能するが、大きなポーズやオクルージョンを示す顔に苦労するなど、中間的なパフォーマンスをもたらす傾向がある。
さらに、異なるスケールで機能間の意味的ギャップやあいまいさを効果的に扱えないため、効率的な特徴の学習を妨げる可能性がある。
上記の課題に対処するため,本稿では,より差別的で代表的な特徴(特殊特徴)を学習するための動的セマンティック・アグリゲーション・トランスフォーマ(DSAT)を提案する。
具体的には、動的セマンティック・アウェア(DSA)モデルが最初に提案され、サンプルをサブセットに分割し、特徴チャネルのセマンティックな相関を推定して特定の経路を活性化し、各サブセットから特別な特徴を学習できるようにする。
そこで,新しい動的セマンティックスペシャライゼーション(DSS)モデルは,意味的ギャップとあいまいさを排除し,表現能力を高めるために,異なるスケールの特徴から同種情報をマイニングするように設計されている。
最後に、DSAモデルとDSSモデルを動的アーキテクチャと動的パラメータの両方でDSATに統合することにより、より正確な顔アライメントを実現するためにより特殊な特徴を学習することができる。
より多くの機能チャネルを活性化することで、より難しいサンプルを処理できることは興味深い。
我々のコードはhttps://github.com/GERMINO-LiuHe/DSATで公開されている。
関連論文リスト
- Dynamical similarity analysis uniquely captures how computations develop in RNNs [3.037387520023979]
最近の研究では、いくつかの指標が刺激的なシグナルに反応し、誤った結果をもたらすことが示されている。
本稿では、リカレントニューラルネットワーク(RNN)における合成学習により、動的表現アライメントメトリクスのテストケースを提供できることを提案する。
最近提案された動的類似性解析 (DSA) は, より頑健で, 行動関連表現を確実に識別できることを示す。
論文 参考訳(メタデータ) (2024-10-31T16:07:21Z) - Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-06-13T02:03:22Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized
Zero-Shot Learning [0.7420433640907689]
一般化ゼロショット学習(GZSL)は、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。
本稿では,一般化ギャップに対処するための二重戦略を提案する。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [82.32018252867277]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
各種課題の実験と帰納的バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - Dynamic Spatio-Temporal Specialization Learning for Fine-Grained Action
Recognition [19.562218963941227]
我々は、特定のタスクを扱う専門領域を含む人間の視覚システムからインスピレーションを得た。
我々は、非常に類似したサンプルのサブセットに対してのみ活性化される特別なニューロンからなる新しい動的動的時空間サブセット(DSTS)を設計する。
トレーニング中のモデルの動的決定を最適化し,DSTSモジュールの性能を向上させるために,UpstreamDownstream Learningアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-09-03T13:59:49Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。