論文の概要: MSMA: Multi-Scale Feature Fusion For Multi-Attribute 3D Face Reconstruction From Unconstrained Images
- arxiv url: http://arxiv.org/abs/2509.11763v1
- Date: Mon, 15 Sep 2025 10:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.232727
- Title: MSMA: Multi-Scale Feature Fusion For Multi-Attribute 3D Face Reconstruction From Unconstrained Images
- Title(参考訳): MSMA: 制約のない画像からのマルチ属性3D顔再構成のためのマルチスケール機能融合
- Authors: Danling Cao,
- Abstract要約: 1つの制約のない画像から3D顔を再構築することは、制約のない環境における様々な条件のため、依然として難しい問題である。
制約のない画像から3次元顔の再構成を行うための多次元特徴融合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D face from a single unconstrained image remains a challenging problem due to diverse conditions in unconstrained environments. Recently, learning-based methods have achieved notable results by effectively capturing complex facial structures and details across varying conditions. Consequently, many existing approaches employ projection-based losses between generated and input images to constrain model training. However, learning-based methods for 3D face reconstruction typically require substantial amounts of 3D facial data, which is difficult and costly to obtain. Consequently, to reduce reliance on labeled 3D face datasets, many existing approaches employ projection-based losses between generated and input images to constrain model training. Nonetheless, despite these advancements, existing approaches frequently struggle to capture detailed and multi-scale features under diverse facial attributes and conditions, leading to incomplete or less accurate reconstructions. In this paper, we propose a Multi-Scale Feature Fusion with Multi-Attribute (MSMA) framework for 3D face reconstruction from unconstrained images. Our method integrates multi-scale feature fusion with a focus on multi-attribute learning and leverages a large-kernel attention module to enhance the precision of feature extraction across scales, enabling accurate 3D facial parameter estimation from a single 2D image. Comprehensive experiments on the MICC Florence, Facewarehouse and custom-collect datasets demonstrate that our approach achieves results on par with current state-of-the-art methods, and in some instances, surpasses SOTA performance across challenging conditions.
- Abstract(参考訳): 1つの制約のない画像から3D顔を再構築することは、制約のない環境における様々な条件のため、依然として難しい問題である。
近年,複雑な顔の構造や詳細を様々な条件で効果的に把握することで,学習ベースの手法が顕著な成果を上げている。
したがって、既存の多くのアプローチでは、モデルトレーニングを制約するために、生成画像と入力画像の間にプロジェクションに基づく損失を用いる。
しかし,3次元顔再構成のための学習ベース手法は,通常,大量の3次元顔データを必要とするため,入手が困難でコストがかかる。
その結果、ラベル付き3D顔データセットへの依存を減らすため、既存の多くのアプローチでは、生成画像と入力画像の間の投影に基づく損失をモデルトレーニングの制約として採用している。
しかしながら、これらの進歩にもかかわらず、既存のアプローチは、様々な顔の特徴や条件の下で、詳細でマルチスケールな特徴を捉えるのにしばしば苦労し、不完全またはより正確な再構築につながった。
本稿では,制約のない画像から3次元顔の再構成を行うためのMSMA(Multi-Scale Feature Fusion with Multi-Attribute)フレームワークを提案する。
提案手法は,マルチ属性学習に焦点をあてたマルチスケール機能融合を統合し,大規模カーネルアテンションモジュールを活用して特徴抽出の精度を高め,単一の2次元画像から正確な3次元顔画像パラメータ推定を可能にする。
MICC Florence、Facewarehouse、カスタムコレクトデータセットに関する総合的な実験は、我々のアプローチが現在の最先端の手法と同等の結果を得ることを示した。
関連論文リスト
- Hierarchical MLANet: Multi-level Attention for 3D Face Reconstruction From Single Images [0.0]
そこで本研究では,単一の画像から3次元顔モデルを再構成するための畳み込みニューラルネットワークによるアプローチを提案する。
本モデルでは, 顔形状, テクスチャ, ポーズ, 照明パラメータを1つの画像から予測する。
3D Morphable Model (3DMM)パラメータを公開データセットから組み込んだ半教師付きトレーニング戦略が採用されている。
論文 参考訳(メタデータ) (2025-09-12T07:42:27Z) - Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。
本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文 参考訳(メタデータ) (2024-12-12T06:09:49Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion [25.068822438649928]
我々は,多視点画像間の特徴対応を探索し,高精度な3次元顔の再構成を行う,Deep Fusion MVRと呼ばれる新しいパイプラインを提案する。
具体的には、マスクを用いて複数のエンコーダの特徴を整列させる、新しいマルチビュー機能融合バックボーンを提案する。
マルチビュー機能融合と顔再構成を容易にする1つの簡潔なマスク機構を開発した。
論文 参考訳(メタデータ) (2022-04-08T05:11:04Z) - Facial Geometric Detail Recovery via Implicit Representation [147.07961322377685]
そこで本研究では,一眼の顔画像のみを用いて,テクスチャガイドを用いた幾何的細部復元手法を提案する。
提案手法は,高品質なテクスチャ補完と暗黙の面の強力な表現性を組み合わせたものである。
本手法は, 顔の正確な細部を復元するだけでなく, 正常部, アルベド部, シェーディング部を自己監督的に分解する。
論文 参考訳(メタデータ) (2022-03-18T01:42:59Z) - Implicit Neural Deformation for Multi-View Face Reconstruction [43.88676778013593]
マルチビューRGB画像から新しい3次元顔再構成法を提案する。
従来の3次元形態素モデルに基づく手法とは異なり,本手法は暗黙の表現を利用してリッチな幾何学的特徴を符号化する。
いくつかのベンチマークデータセットに対する実験結果から,提案手法は代替ベースラインよりも優れ,最先端の手法に比べて優れた顔再構成結果が得られることが示された。
論文 参考訳(メタデータ) (2021-12-05T07:02:53Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Weakly-Supervised Multi-Face 3D Reconstruction [45.864415499303405]
多面的3D再構築のための効果的なエンドツーエンドフレームワークを提案する。
各画像の再構成された顔に対して、同じグローバルカメラモデルを採用し、3dシーンにおける相対的な頭部位置と向きを復元することができる。
論文 参考訳(メタデータ) (2021-01-06T13:15:21Z) - Self-Supervised Monocular 3D Face Reconstruction by Occlusion-Aware
Multi-view Geometry Consistency [40.56510679634943]
マルチビュー幾何整合性を利用した自己教師付きトレーニングアーキテクチャを提案する。
画素の整合性損失,奥行きの整合性損失,顔のランドマークに基づくエピポーラロスを含む,多視点整合性のための3つの新しい損失関数を設計する。
提案手法は精度が高く,特に多彩な表現,ポーズ,照明条件下では堅牢である。
論文 参考訳(メタデータ) (2020-07-24T12:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。