論文の概要: Robust 3D Face Alignment with Multi-Path Neural Architecture Search
- arxiv url: http://arxiv.org/abs/2406.07873v1
- Date: Wed, 12 Jun 2024 05:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:25:01.725952
- Title: Robust 3D Face Alignment with Multi-Path Neural Architecture Search
- Title(参考訳): マルチパスニューラルネットワークによるロバスト3次元顔アライメント
- Authors: Zhichao Jiang, Hongsong Wang, Xi Teng, Baopu Li,
- Abstract要約: 3D顔のアライメントは、コンピュータビジョンにおいて非常に困難で基本的な問題である。
既存のディープラーニングベースの手法は、異なるネットワークを手動で設計し、3次元顔モデルのパラメータや3次元顔頂点の位置を回帰する。
我々は3次元顔アライメントのための最適なアーキテクチャを自動的に発見するために、Neural Architecture Search (NAS) を用いる。
- 参考スコア(独自算出の注目度): 23.432737053236096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D face alignment is a very challenging and fundamental problem in computer vision. Existing deep learning-based methods manually design different networks to regress either parameters of a 3D face model or 3D positions of face vertices. However, designing such networks relies on expert knowledge, and these methods often struggle to produce consistent results across various face poses. To address this limitation, we employ Neural Architecture Search (NAS) to automatically discover the optimal architecture for 3D face alignment. We propose a novel Multi-path One-shot Neural Architecture Search (MONAS) framework that leverages multi-scale features and contextual information to enhance face alignment across various poses. The MONAS comprises two key algorithms: Multi-path Networks Unbiased Sampling Based Training and Simulated Annealing based Multi-path One-shot Search. Experimental results on three popular benchmarks demonstrate the superior performance of the MONAS for both sparse alignment and dense alignment.
- Abstract(参考訳): 3D顔のアライメントは、コンピュータビジョンにおいて非常に困難で基本的な問題である。
既存のディープラーニングベースの手法は、異なるネットワークを手動で設計し、3次元顔モデルのパラメータや3次元顔頂点の位置を回帰する。
しかし、そのようなネットワークの設計は専門家の知識に依存しており、これらの手法は様々な顔のポーズで一貫した結果を生み出すのに苦労することが多い。
この制限に対処するために、我々はNeural Architecture Search (NAS)を用いて、3D顔アライメントのための最適なアーキテクチャを自動的に発見する。
マルチパスワンショットニューラル・アーキテクチャ・サーチ(MONAS)フレームワークを提案する。
MONASは2つの主要なアルゴリズムからなる: マルチパスネットワーク アンバイアスドサンプリングベーストレーニングとシミュレートされたアニーリングベースのマルチパスワンショット検索。
3つのベンチマーク実験の結果, 細いアライメントと密なアライメントの両方において, MONASの優れた性能を示した。
関連論文リスト
- PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - 3D Dense Face Alignment with Fused Features by Aggregating CNNs and GCNs [28.7443367565456]
これは、標準畳み込みニューラルネットワーク(CNN)とグラフ畳み込みネットワーク(GCN)をシームレスに結合することで達成される。
CNNとGCNの異なる層やステージにまたがる特徴を反復的に融合させることで,我々のアプローチは高密度な顔アライメントと3次元顔再構成を同時に実現することができる。
いくつかの挑戦的なデータセットの実験により、我々の手法は2次元および3次元の顔アライメントタスクにおける最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-03-09T11:07:10Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Implicit Neural Deformation for Multi-View Face Reconstruction [43.88676778013593]
マルチビューRGB画像から新しい3次元顔再構成法を提案する。
従来の3次元形態素モデルに基づく手法とは異なり,本手法は暗黙の表現を利用してリッチな幾何学的特徴を符号化する。
いくつかのベンチマークデータセットに対する実験結果から,提案手法は代替ベースラインよりも優れ,最先端の手法に比べて優れた顔再構成結果が得られることが示された。
論文 参考訳(メタデータ) (2021-12-05T07:02:53Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Accurate 3D Facial Geometry Prediction by Multi-Task, Multi-Modal, and
Multi-Representation Landmark Refinement Network [14.966695101335704]
この研究は、3dモデリングと顔方向推定による3d顔アライメントを含む、完全な3d顔形状予測に焦点を当てている。
我々の焦点は、重要な顔の特徴である3Dランドマークに焦点をあて、その埋め込み情報を十分に活用して3D顔形状学習をガイドすることである。
私達は3D顔の幾何学を学ぶすべてのタスクの広範な実験からの芸術の状態を達成します。
論文 参考訳(メタデータ) (2021-04-16T23:22:41Z) - Learning 3D Face Reconstruction with a Pose Guidance Network [49.13404714366933]
ポーズ誘導ネットワーク(PGN)を用いた単眼3次元顔再構成学習のための自己指導型学習手法を提案する。
まず,従来のパラメトリックな3次元顔の学習手法におけるポーズ推定のボトルネックを明らかにし,ポーズパラメータの推定に3次元顔のランドマークを活用することを提案する。
我々のデザインしたPGNでは、完全にラベル付けされた3Dランドマークと無制限にラベル付けされた未使用の顔画像で両方の顔から学習できる。
論文 参考訳(メタデータ) (2020-10-09T06:11:17Z) - Self-Supervised Monocular 3D Face Reconstruction by Occlusion-Aware
Multi-view Geometry Consistency [40.56510679634943]
マルチビュー幾何整合性を利用した自己教師付きトレーニングアーキテクチャを提案する。
画素の整合性損失,奥行きの整合性損失,顔のランドマークに基づくエピポーラロスを含む,多視点整合性のための3つの新しい損失関数を設計する。
提案手法は精度が高く,特に多彩な表現,ポーズ,照明条件下では堅牢である。
論文 参考訳(メタデータ) (2020-07-24T12:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。