Fugu-MT 論文翻訳(概要): 1DFormer: a Transformer Architecture Learning 1D Landmark Representations for Facial Landmark Tracking

論文の概要: 1DFormer: a Transformer Architecture Learning 1D Landmark Representations for Facial Landmark Tracking

arxiv url: http://arxiv.org/abs/2311.00241v2
Date: Thu, 1 Feb 2024 09:33:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 19:04:20.787872
Title: 1DFormer: a Transformer Architecture Learning 1D Landmark Representations for Facial Landmark Tracking
Title（参考訳）: 1DFormer: 顔のランドマーク追跡のための1Dランドマーク表現を学習するトランスフォーマーアーキテクチャ
Authors: Shi Yin, Shijie Huan, Shangfei Wang, Jinshui Hu, Tao Guo, Bing Yin, Baocai Yin, Cong Liu
Abstract要約: 1DFormerは、ランドマークの動的および幾何学的パターンをキャプチャすることで、情報的な1Dランドマーク表現を学ぶ。本研究では, 時間的モデリングのために, 繰り返しトークン混合機構, 軸ランドマーク位置埋め込み機構, および信頼性向上型マルチヘッドアテンション機構を提案する。構造モデリングでは,グループ内およびグループ間構造モデリング機構を設計し,コンポーネントレベルとグローバルレベルの顔構造パターンを符号化する。
参考スコア（独自算出の注目度）: 63.043953602546424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, heatmap regression methods based on 1D landmark representations have shown prominent performance on locating facial landmarks. However, previous methods ignored to make deep explorations on the good potentials of 1D landmark representations for sequential and structural modeling of multiple landmarks to track facial landmarks. To address this limitation, we propose a Transformer architecture, namely 1DFormer, which learns informative 1D landmark representations by capturing the dynamic and the geometric patterns of landmarks via token communications in both temporal and spatial dimensions for facial landmark tracking. For temporal modeling, we propose a recurrent token mixing mechanism, an axis-landmark-positional embedding mechanism, as well as a confidence-enhanced multi-head attention mechanism to adaptively and robustly embed long-term landmark dynamics into their 1D representations; for structure modeling, we design intra-group and inter-group structure modeling mechanisms to encode the component-level as well as global-level facial structure patterns as a refinement for the 1D representations of landmarks through token communications in the spatial dimension via 1D convolutional layers. Experimental results on the 300VW and the TF databases show that 1DFormer successfully models the long-range sequential patterns as well as the inherent facial structures to learn informative 1D representations of landmark sequences, and achieves state-of-the-art performance on facial landmark tracking.
Abstract（参考訳）: 近年,1次元ランドマーク表現に基づくヒートマップ回帰手法が顔ランドマークの同定において顕著な性能を示している。しかし、従来の手法では、顔のランドマークを追跡するために複数のランドマークを逐次かつ構造的にモデル化するための1Dランドマーク表現の優れた可能性について深い調査を行うことは無視されていた。この制限に対処するために,顔のランドマーク追跡のための時間的および空間的次元のトークン通信によるランドマークの動的および幾何学的パターンをキャプチャし,情報的な1dランドマーク表現を学習するトランスフォーマを提案する。 For temporal modeling, we propose a recurrent token mixing mechanism, an axis-landmark-positional embedding mechanism, as well as a confidence-enhanced multi-head attention mechanism to adaptively and robustly embed long-term landmark dynamics into their 1D representations; for structure modeling, we design intra-group and inter-group structure modeling mechanisms to encode the component-level as well as global-level facial structure patterns as a refinement for the 1D representations of landmarks through token communications in the spatial dimension via 1D convolutional layers. 300vwおよびtfデータベースにおける実験結果から、1dformerは、ランドマークシーケンスの1d表現を学習するために、長距離シーケンシャルパターンと固有の顔構造をモデル化し、顔ランドマーク追跡における最先端のパフォーマンスを達成した。

関連論文リスト

CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。 CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文参考訳（メタデータ） (2025-03-11T03:08:43Z)
DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文参考訳（メタデータ） (2024-11-03T15:15:01Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling [96.87575334960258]
ID-to-3D(ID-to-3D)は、不整合表現を用いたIDとテキスト誘導型3次元頭部を生成する方法である。前例のないアイデンティティ一貫性と高品質なテクスチャと幾何生成を実現する。
論文参考訳（メタデータ） (2024-05-26T13:36:45Z)
3D Face Reconstruction Using A Spectral-Based Graph Convolution Encoder [3.749406324648861]
本稿では,既存の2次元機能と3次元機能を統合し,モデル学習プロセスを導く革新的なアプローチを提案する。我々のモデルはデータセットの組み合わせから2D-3Dデータペアを用いて訓練され、NoWベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-03-08T11:09:46Z)
SUDS: Scalable Urban Dynamic Scenes [46.965165390077146]
我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。シーンを3つの別々のハッシュテーブルデータ構造に分解し、静的、動的、遠距離の放射場を効率的に符号化する。私たちの再建は、数百kmの空間的フットプリントにまたがる1700の動画から、120万フレームにわたる数十万のオブジェクトにスケールすることができる。
論文参考訳（メタデータ） (2023-03-25T18:55:09Z)
Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文参考訳（メタデータ） (2021-02-04T14:26:42Z)
Learning 3D Face Reconstruction with a Pose Guidance Network [49.13404714366933]
ポーズ誘導ネットワーク(PGN)を用いた単眼3次元顔再構成学習のための自己指導型学習手法を提案する。まず,従来のパラメトリックな3次元顔の学習手法におけるポーズ推定のボトルネックを明らかにし,ポーズパラメータの推定に3次元顔のランドマークを活用することを提案する。我々のデザインしたPGNでは、完全にラベル付けされた3Dランドマークと無制限にラベル付けされた未使用の顔画像で両方の顔から学習できる。
論文参考訳（メタデータ） (2020-10-09T06:11:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。