論文の概要: LOTR: Face Landmark Localization Using Localization Transformer
- arxiv url: http://arxiv.org/abs/2109.10057v1
- Date: Tue, 21 Sep 2021 09:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:38:36.642863
- Title: LOTR: Face Landmark Localization Using Localization Transformer
- Title(参考訳): LOTR:Localization Transformerを用いた顔ランドマークのローカライゼーション
- Authors: Ukrit Watchareeruetai, Benjaphan Sommanna, Sanjana Jain, Pavit
Noinongyao, Ankush Ganguly, Aubin Samacoits, Samuel W.F. Earp and Nakarin
Sritrakool
- Abstract要約: 提案するフレームワークは,Transformerネットワークを利用して特徴マップ内の空間情報をよりよく活用する,直接座標回帰手法である。
トリミング・アンド・アライメントされた顔画像を考えると、提案したLOTRは後処理ステップを必要とせずにエンドツーエンドで訓練することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel Transformer-based facial landmark localization
network named Localization Transformer (LOTR). The proposed framework is a
direct coordinate regression approach leveraging a Transformer network to
better utilize the spatial information in the feature map. An LOTR model
consists of three main modules: 1) a visual backbone that converts an input
image into a feature map, 2) a Transformer module that improves the feature
representation from the visual backbone, and 3) a landmark prediction head that
directly predicts the landmark coordinates from the Transformer's
representation. Given cropped-and-aligned face images, the proposed LOTR can be
trained end-to-end without requiring any post-processing steps. This paper also
introduces the smooth-Wing loss function, which addresses the gradient
discontinuity of the Wing loss, leading to better convergence than standard
loss functions such as L1, L2, and Wing loss. Experimental results on the JD
landmark dataset provided by the First Grand Challenge of 106-Point Facial
Landmark Localization indicate the superiority of LOTR over the existing
methods on the leaderboard and two recent heatmap-based approaches.
- Abstract(参考訳): 本稿では,新しいトランスフォーマーベースの顔ランドマーク定位ネットワークであるローカライゼーショントランスフォーマ(lotr)を提案する。
提案するフレームワークは,Transformerネットワークを利用して特徴マップ内の空間情報をよりよく活用する,直接座標回帰手法である。
LOTRモデルは3つの主要モジュールから構成される。
1)入力画像を特徴地図に変換する視覚的バックボーン。
2)視覚バックボーンから特徴表現を改善するトランスフォーマーモジュール,および
3) 変圧器の表示からランドマーク座標を直接予測するランドマーク予測ヘッド。
トリミング・アンド・アライメントされた顔画像を考えると、提案したLOTRは後処理ステップを必要とせずにエンドツーエンドで訓練することができる。
また, 主翼損失の勾配不連続性に対処する滑らかな主翼損失関数を導入し, l1, l2, 主翼損失などの標準損失関数よりも収束性が向上した。
106-Point Facial Landmark Localizationの第1回グランドチャレンジで提供されたJDランドマークデータセットの実験結果から,リーダボード上の既存手法よりもLOTRの方が優れていることが示唆された。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows [60.291277312569285]
本研究では,単一観測値に基づいてNeRF表現を自動的に修正する手法を提案する。
本手法は, 変形を3次元流れ, 特に剛性変換の重み付き線形ブレンディングとして定義する。
また,単一観測によるNeRFシーンの修正問題を探索するための新しいデータセットも導入した。
論文 参考訳(メタデータ) (2024-06-15T07:58:08Z) - T-Pixel2Mesh: Combining Global and Local Transformer for 3D Mesh Generation from a Single Image [84.08705684778666]
本稿では,P2Mの粗大なアプローチにインスパイアされたトランスフォーマーブーストアーキテクチャT-Pixel2Meshを提案する。
具体的には,大域変換器を用いて局所的な形状を制御し,局所的な幾何学的詳細を洗練させる。
ShapeNetの実験では最先端の性能が実証され,実世界のデータでは一般化能力が示された。
論文 参考訳(メタデータ) (2024-03-20T15:14:22Z) - Lookup Table meets Local Laplacian Filter: Pyramid Reconstruction
Network for Tone Mapping [35.47139372780014]
本稿では, 閉形式ラプラシアンピラミッドの分解と復元を利用して, グローバルおよびローカル演算子を統合する新しい戦略について検討する。
周波数情報の特徴を利用して低周波画像のトーンを操作するために,画像適応型3D LUTを用いた。
また、局所ラプラシアフィルタを用いて、高周波成分のエッジ詳細を適応的に洗練する。
論文 参考訳(メタデータ) (2023-10-26T07:05:38Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context
Propagation in Transformers [60.51925353387151]
本稿では,近隣地域間のメッセージパッシングを活用するために,LCP (Local Context Propagation) という新しいモジュールを提案する。
隣接するローカル領域の重複点を仲介として使用した後、異なるローカルリージョンからの共有ポイントの特徴を再重み付けし、その後、次のレイヤに渡す。
提案手法は, 異なるタスクに適用可能であり, 3次元形状分類や高密度予測タスクを含むベンチマークにおいて, 様々なトランスフォーマーベースの手法より優れる。
論文 参考訳(メタデータ) (2022-10-23T15:43:01Z) - RePFormer: Refinement Pyramid Transformer for Robust Facial Landmark
Detection [131.1478251760399]
顔のランドマーク検出タスクをピラミッド記憶に沿ったランドマーククエリの精製として定式化する。
具体的には、ピラミッドトランスフォーマーヘッド(PTH)を導入し、ランドマーク間の関係とランドマークとクロススケールコンテキストの間の異種関係の両方を構築する。
動的ランドマークリファインメント(DLR)モジュールは、ランドマークレグレッションをエンドツーエンドのリファインメント手順に分解するために設計されている。
論文 参考訳(メタデータ) (2022-07-08T14:12:26Z) - Sparse Local Patch Transformer for Robust Face Alignment and Landmarks
Inherent Relation Learning [11.150290581561725]
固有関係を学習するためのスパース局所パッチ変換器(S)を提案する。
提案手法は計算量が少なくて最先端のレベルで機能する。
論文 参考訳(メタデータ) (2022-03-13T01:15:23Z) - TransformerFusion: Monocular RGB Scene Reconstruction using Transformers [26.87200488085741]
TransformerFusionはトランスフォーマーベースの3Dシーン再構築手法である。
ネットワークは、シーン内の3D位置ごとに最も関連性の高い画像フレームに参加することを学習する。
機能は粗い方法で融合され、必要なときにのみ細かい機能を保持する。
論文 参考訳(メタデータ) (2021-07-05T18:00:11Z) - A generalised feature for low level vision [0.0]
Sinclair-Town変換は、エッジ検出器、MSERスタイルの領域検出器、コーナー検出器の両方のロールを仮定する。
局所平均との差は3つの値(暗中光)に量子化される
論文 参考訳(メタデータ) (2021-02-03T11:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。