論文の概要: 1DFormer: a Transformer Architecture Learning 1D Landmark
Representations for Facial Landmark Tracking
- arxiv url: http://arxiv.org/abs/2311.00241v2
- Date: Thu, 1 Feb 2024 09:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:04:20.787872
- Title: 1DFormer: a Transformer Architecture Learning 1D Landmark
Representations for Facial Landmark Tracking
- Title(参考訳): 1DFormer: 顔のランドマーク追跡のための1Dランドマーク表現を学習するトランスフォーマーアーキテクチャ
- Authors: Shi Yin, Shijie Huan, Shangfei Wang, Jinshui Hu, Tao Guo, Bing Yin,
Baocai Yin, Cong Liu
- Abstract要約: 1DFormerは、ランドマークの動的および幾何学的パターンをキャプチャすることで、情報的な1Dランドマーク表現を学ぶ。
本研究では, 時間的モデリングのために, 繰り返しトークン混合機構, 軸ランドマーク位置埋め込み機構, および信頼性向上型マルチヘッドアテンション機構を提案する。
構造モデリングでは,グループ内およびグループ間構造モデリング機構を設計し,コンポーネントレベルとグローバルレベルの顔構造パターンを符号化する。
- 参考スコア(独自算出の注目度): 63.043953602546424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, heatmap regression methods based on 1D landmark representations
have shown prominent performance on locating facial landmarks. However,
previous methods ignored to make deep explorations on the good potentials of 1D
landmark representations for sequential and structural modeling of multiple
landmarks to track facial landmarks. To address this limitation, we propose a
Transformer architecture, namely 1DFormer, which learns informative 1D landmark
representations by capturing the dynamic and the geometric patterns of
landmarks via token communications in both temporal and spatial dimensions for
facial landmark tracking. For temporal modeling, we propose a recurrent token
mixing mechanism, an axis-landmark-positional embedding mechanism, as well as a
confidence-enhanced multi-head attention mechanism to adaptively and robustly
embed long-term landmark dynamics into their 1D representations; for structure
modeling, we design intra-group and inter-group structure modeling mechanisms
to encode the component-level as well as global-level facial structure patterns
as a refinement for the 1D representations of landmarks through token
communications in the spatial dimension via 1D convolutional layers.
Experimental results on the 300VW and the TF databases show that 1DFormer
successfully models the long-range sequential patterns as well as the inherent
facial structures to learn informative 1D representations of landmark
sequences, and achieves state-of-the-art performance on facial landmark
tracking.
- Abstract(参考訳): 近年,1次元ランドマーク表現に基づくヒートマップ回帰手法が顔ランドマークの同定において顕著な性能を示している。
しかし、従来の手法では、顔のランドマークを追跡するために複数のランドマークを逐次かつ構造的にモデル化するための1Dランドマーク表現の優れた可能性について深い調査を行うことは無視されていた。
この制限に対処するために,顔のランドマーク追跡のための時間的および空間的次元のトークン通信によるランドマークの動的および幾何学的パターンをキャプチャし,情報的な1dランドマーク表現を学習するトランスフォーマを提案する。
For temporal modeling, we propose a recurrent token mixing mechanism, an axis-landmark-positional embedding mechanism, as well as a confidence-enhanced multi-head attention mechanism to adaptively and robustly embed long-term landmark dynamics into their 1D representations; for structure modeling, we design intra-group and inter-group structure modeling mechanisms to encode the component-level as well as global-level facial structure patterns as a refinement for the 1D representations of landmarks through token communications in the spatial dimension via 1D convolutional layers.
300vwおよびtfデータベースにおける実験結果から、1dformerは、ランドマークシーケンスの1d表現を学習するために、長距離シーケンシャルパターンと固有の顔構造をモデル化し、顔ランドマーク追跡における最先端のパフォーマンスを達成した。
関連論文リスト
- 3D Face Reconstruction Using A Spectral-Based Graph Convolution Encoder [3.9729302621559186]
本稿では,既存の2次元機能と3次元機能を統合し,モデル学習プロセスを導く革新的なアプローチを提案する。
我々のモデルはデータセットの組み合わせから2D-3Dデータペアを用いて訓練され、NoWベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:46Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - SUDS: Scalable Urban Dynamic Scenes [46.965165390077146]
我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。
シーンを3つの別々のハッシュテーブルデータ構造に分解し、静的、動的、遠距離の放射場を効率的に符号化する。
私たちの再建は、数百kmの空間的フットプリントにまたがる1700の動画から、120万フレームにわたる数十万のオブジェクトにスケールすることができる。
論文 参考訳(メタデータ) (2023-03-25T18:55:09Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - Dense Graph Convolutional Neural Networks on 3D Meshes for 3D Object
Segmentation and Classification [0.0]
本稿では3次元メッシュ上でのグラフ畳み込みニューラルネットワーク(GCN)の設計について述べる。
メッシュの顔を基本処理単位とし、各ノードが顔に対応するグラフとして3Dメッシュを表現する。
論文 参考訳(メタデータ) (2021-06-30T02:17:16Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Learning 3D Face Reconstruction with a Pose Guidance Network [49.13404714366933]
ポーズ誘導ネットワーク(PGN)を用いた単眼3次元顔再構成学習のための自己指導型学習手法を提案する。
まず,従来のパラメトリックな3次元顔の学習手法におけるポーズ推定のボトルネックを明らかにし,ポーズパラメータの推定に3次元顔のランドマークを活用することを提案する。
我々のデザインしたPGNでは、完全にラベル付けされた3Dランドマークと無制限にラベル付けされた未使用の顔画像で両方の顔から学習できる。
論文 参考訳(メタデータ) (2020-10-09T06:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。