論文の概要: Infinite 3D Landmarks: Improving Continuous 2D Facial Landmark Detection
- arxiv url: http://arxiv.org/abs/2405.20117v1
- Date: Thu, 30 May 2024 14:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:58:47.033500
- Title: Infinite 3D Landmarks: Improving Continuous 2D Facial Landmark Detection
- Title(参考訳): 無限3次元ランドマーク:連続2次元顔ランドマーク検出の改善
- Authors: Prashanth Chandran, Gaspard Zoss, Paulo Gotardo, Derek Bradley,
- Abstract要約: 具体的なアーキテクチャ変更の組み合わせによって,その正確性と時間的安定性が向上することを示す。
ランドマーク検出器とともにトレーニングされた空間変圧器ネットワークの使用を教師なしで解析する。
ランドマーク予測器の出力ヘッドを変更して標準3次元空間のランドマークを推定することにより、精度をさらに向上できることを示す。
- 参考スコア(独自算出の注目度): 9.633565294243173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we examine 3 important issues in the practical use of state-of-the-art facial landmark detectors and show how a combination of specific architectural modifications can directly improve their accuracy and temporal stability. First, many facial landmark detectors require face normalization as a preprocessing step, which is accomplished by a separately-trained neural network that crops and resizes the face in the input image. There is no guarantee that this pre-trained network performs the optimal face normalization for landmark detection. We instead analyze the use of a spatial transformer network that is trained alongside the landmark detector in an unsupervised manner, and jointly learn optimal face normalization and landmark detection. Second, we show that modifying the output head of the landmark predictor to infer landmarks in a canonical 3D space can further improve accuracy. To convert the predicted 3D landmarks into screen-space, we additionally predict the camera intrinsics and head pose from the input image. As a side benefit, this allows to predict the 3D face shape from a given image only using 2D landmarks as supervision, which is useful in determining landmark visibility among other things. Finally, when training a landmark detector on multiple datasets at the same time, annotation inconsistencies across datasets forces the network to produce a suboptimal average. We propose to add a semantic correction network to address this issue. This additional lightweight neural network is trained alongside the landmark detector, without requiring any additional supervision. While the insights of this paper can be applied to most common landmark detectors, we specifically target a recently-proposed continuous 2D landmark detector to demonstrate how each of our additions leads to meaningful improvements over the state-of-the-art on standard benchmarks.
- Abstract(参考訳): 本稿では,最先端の顔ランドマーク検出器の実用化における3つの重要な課題について検討し,その精度と時間的安定性を直接的に向上させる方法について述べる。
まず、多くの顔ランドマーク検出器は、前処理のステップとして顔の正規化を必要とし、入力画像の顔をトリミングし、再サイズする、個別に訓練されたニューラルネットワークによって達成される。
この事前学習ネットワークがランドマーク検出のための最適な顔正規化を行う保証はない。
そこで我々は,非教師付きでランドマーク検出器とともに訓練された空間トランスフォーマーネットワークの利用を分析し,最適な顔正規化とランドマーク検出を共同で学習する。
第2に、3次元標準空間におけるランドマークを推定するためにランドマーク予測器の出力ヘッドを変更することにより、精度が向上することを示した。
予測された3Dランドマークをスクリーン空間に変換するために,入力画像からカメラ固有の特徴と頭部ポーズを予測する。
副次的な利点として、これによって与えられた画像から2Dランドマークのみを使用して3Dの顔の形を予測することができる。
最後に、複数のデータセット上でランドマーク検出を同時にトレーニングする場合、データセット間のアノテーションの不整合は、ネットワークに最適な平均値を生成するように強制する。
本稿では,この問題に対処する意味的訂正ネットワークを提案する。
この追加の軽量ニューラルネットワークは、追加の監視を必要とせず、ランドマーク検出器と共に訓練される。
この論文の洞察は、ほとんどのランドマーク検出器に適用できるが、我々は最近提案された連続2Dランドマーク検出器をターゲットとし、これらの追加が標準ベンチマークの最先端よりも有意義な改善をもたらすことを実証する。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection [6.096961718434965]
本研究では,3次元屋内空間の散在を考慮し,半教師付き3次元物体検出の課題について検討する。
我々は,最近セミ教師付き学習の顕著な進歩を招いた,堅牢で原則化された自己学習の枠組みに頼っている。
そこで本研究では,空間的に密集したトレーニング信号を可能にする,最初の半教師付き3次元検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:59:54Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Towards Accurate Facial Landmark Detection via Cascaded Transformers [14.74021483826222]
本稿では,カスケードトランスを用いた正確な顔のランドマーク検出手法を提案する。
トランスにおける自己注意によって、我々のモデルは本質的にランドマーク間の構造化された関係を活用できる。
このモデルでは, 目標ランドマークの周囲に最も関連性の高い画像の特徴を抽出し, 座標予測を行う。
論文 参考訳(メタデータ) (2022-08-23T08:42:13Z) - SNAKE: Shape-aware Neural 3D Keypoint Field [62.91169625183118]
形状復元には点雲から3Dキーポイントを検出することが重要である。
形状再構成は3次元キーポイント検出に有効か?
本稿では,形状認識型ニューラル3Dキーポイントフィールドに短いSNAKEという,教師なしの新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-03T17:58:43Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Neighbor-Vote: Improving Monocular 3D Object Detection through Neighbor
Distance Voting [12.611269919468999]
本稿では、隣接する予測を組み込んで、高度に変形した擬似LiDAR点雲からの物体検出を改善する方法を提案する。
鳥の視線検出の成績は,特に難易度検出において,最先端の視線検出よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2021-07-06T09:18:33Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - BRUL\`E: Barycenter-Regularized Unsupervised Landmark Extraction [2.2758845733923687]
画像特徴の教師なし検索は、アノテーションが欠けている、あるいは不足している多くのコンピュータビジョンタスクにとって不可欠である。
画像中のランドマークを検出するための教師なしの新たなアプローチを提案し,人間の顔のキーポイント抽出の一般的なタスク上で検証する。
提案手法は,非重要情報を捨てつつ,潜在空間における所望のランドマークを自動エンコードする手法に基づく。
論文 参考訳(メタデータ) (2020-06-20T20:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。