論文の概要: From 2D Images to 3D Model:Weakly Supervised Multi-View Face
Reconstruction with Deep Fusion
- arxiv url: http://arxiv.org/abs/2204.03842v1
- Date: Fri, 8 Apr 2022 05:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:11:28.377308
- Title: From 2D Images to 3D Model:Weakly Supervised Multi-View Face
Reconstruction with Deep Fusion
- Title(参考訳): 2次元画像から3次元モデルへ:深部融合による多視点顔再建
- Authors: Weiguang Zhao and Chaolong Yang and Jianan Ye and Yuyao Yan and Xi
Yang and Kaizhu Huang
- Abstract要約: 弱教師付き学習を用いたマルチビュー3次元顔再構成(MVR)の問題点を考察する。
提案モデルでは,既存の最弱教師付きMVRよりも11.4%のRMSE改善を実現した。
- 参考スコア(独自算出の注目度): 14.735408751689295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the problem of Multi-view 3D Face Reconstruction (MVR) with
weakly supervised learning that leverages a limited number of 2D face images
(e.g. 3) to generate a high-quality 3D face model with very light annotation.
Despite their encouraging performance, present MVR methods simply concatenate
multi-view image features and pay less attention to critical areas (e.g. eye,
brow, nose and mouth). To this end, we propose a novel model called Deep Fusion
MVR (DF-MVR) and design a multi-view encoding to a single decoding framework
with skip connections, able to extract, integrate, and compensate deep features
with attention from multi-view images. In addition, we develop a multi-view
face parse network to learn, identify, and emphasize the critical common face
area. Finally, though our model is trained with a few 2D images, it can
reconstruct an accurate 3D model even if one single 2D image is input. We
conduct extensive experiments to evaluate various multi-view 3D face
reconstruction methods. Our proposed model attains superior performance,
leading to 11.4% RMSE improvement over the existing best weakly supervised
MVRs. Source codes are available in the supplementary materials.
- Abstract(参考訳): 少ないアノテーションで高品質な3次元顔モデルを生成するために、限られた2次元顔画像(例3)を利用する弱教師付き学習を伴うマルチビュー3次元顔再構成(MVR)の問題を考える。
奨励的なパフォーマンスにもかかわらず、現在のmvrメソッドは、単に多視点画像の特徴を結合し、重要な領域(例えば、目、額、鼻、口)に注意を払わない。
この目的のために,Deep Fusion MVR (DF-MVR) と呼ばれる新しいモデルを提案し,マルチビュー画像から深い特徴を抽出し,統合し,補償することができるスキップ接続を持つ単一デコードフレームワークにマルチビューエンコーディングを設計する。
さらに,批判的な共通顔領域を学習し,識別し,強調する多視点顔解析ネットワークを開発した。
最後に、我々のモデルはいくつかの2d画像で訓練されていますが、単一の2d画像が入力されても正確な3dモデルを再構築することができます。
様々な多視点3次元顔再構成法を評価するための広範囲な実験を行った。
提案モデルでは,既存の最弱教師付きMVRよりも11.4%のRMSE改善を実現した。
ソースコードは補足資料で入手できる。
関連論文リスト
- Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。
しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。
本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T02:30:31Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文 参考訳(メタデータ) (2022-03-14T23:30:58Z) - Detailed Facial Geometry Recovery from Multi-view Images by Learning an
Implicit Function [12.522283941978722]
約10秒で高精細な3次元顔を復元する新しいアーキテクチャを提案する。
マルチビュー画像から3次元形態素モデルを取り付けることで、複数の画像の特徴を抽出し、メッシュ付きUV空間に集約する。
提案手法は,FaceScape データセットにおいて,SOTA 学習に基づく MVS の精度を高いマージンで向上させる。
論文 参考訳(メタデータ) (2022-01-04T07:24:58Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。