論文の概要: From 2D Images to 3D Model:Weakly Supervised Multi-View Face
Reconstruction with Deep Fusion
- arxiv url: http://arxiv.org/abs/2204.03842v4
- Date: Mon, 22 Jan 2024 06:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 00:24:35.413113
- Title: From 2D Images to 3D Model:Weakly Supervised Multi-View Face
Reconstruction with Deep Fusion
- Title(参考訳): 2次元画像から3次元モデルへ:深部融合による多視点顔再建
- Authors: Weiguang Zhao and Chaolong Yang and Jianan Ye and Rui Zhang and Yuyao
Yan and Xi Yang and Bin Dong and Amir Hussain and Kaizhu Huang
- Abstract要約: 多視点画像から高精度な3次元顔形状を再構成する新モデルDeep Fusion MVRを提案する。
具体的には、スキップ接続とアテンションを備えた単一復号化フレームワークのマルチビュー符号化であるMulEn-Unetを紹介する。
我々は,多視点画像内の重要な共通顔領域を学習し,識別し,強調するために,顔解析ネットワークを開発した。
- 参考スコア(独自算出の注目度): 26.011557635884568
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While weakly supervised multi-view face reconstruction (MVR) is garnering
increased attention, one critical issue still remains open: how to effectively
fuse multiple image information to reconstruct high-precision 3D models. In
this regard, we propose a novel model called Deep Fusion MVR (DF-MVR) to
reconstruct high-precision 3D facial shapes from multi-view images.
Specifically, we introduce MulEn-Unet, a multi-view encoding to single decoding
framework with skip connections and attention. This design allows for the
extraction, integration, and compensation of deep features with attention from
multi-view images. Furthermore, we adopt the involution kernel to enrich deep
fusion features with channel features. In addition, we develop the face parse
network to learn, identify, and emphasize the critical common face area within
multi-view images. Experiments on Pixel-Face and Bosphorus datasets indicate
the superiority of our model. Without 3D annotation, DF-MVR achieves 5.2% and
3.0% RMSE improvement over the existing weakly supervised MVRs respectively on
Pixel-Face and Bosphorus dataset. Code will be available publicly at
https://github.com/weiguangzhao/DF_MVR.
- Abstract(参考訳): 弱教師付き多視点顔再構成(MVR)が注目度を高めつつある一方で、複数の画像情報を効果的に融合して高精度な3Dモデルを再構成する方法という重要な問題がまだ残っている。
本稿では,多視点画像から高精度な3次元顔形状を再構成する新しいモデルであるDeep Fusion MVR(DF-MVR)を提案する。
具体的には,スキップ接続と注意力を備えた単一復号化フレームワークのためのマルチビューエンコーディングである mulen-unet を紹介する。
この設計により、マルチビュー画像から注意を引いた深い特徴の抽出、統合、補償が可能になる。
さらに,チャネル機能で深い融合機能を豊かにするために,畳み込みカーネルを採用する。
さらに,多視点画像における重要な共通顔領域の学習,識別,強調を行う顔解析ネットワークを開発した。
pixel-faceとbosphorusデータセットの実験は、モデルが優れていることを示している。
3Dアノテーションがなければ、DF-MVRはPixel-FaceデータセットとBosphorusデータセットで、既存の弱教師付きMVRに対して5.2%と3.0%のRMSE改善を達成する。
コードはhttps://github.com/weiguangzhao/DF_MVR.comで公開される。
関連論文リスト
- Refine3DNet: Scaling Precision in 3D Object Reconstruction from Multi-View RGB Images using Attention [2.037112541541094]
本稿では,自己認識機構を備えた視覚的自動エンコーダと3Dリファインダネットワークを備えたハイブリッド戦略を提案する。
提案手法はJTSOと組み合わせて, 単一・多視点3次元再構成における最先端技術よりも優れる。
論文 参考訳(メタデータ) (2024-12-01T08:53:39Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文 参考訳(メタデータ) (2023-03-14T17:58:03Z) - A Hierarchical Representation Network for Accurate and Detailed Face
Reconstruction from In-The-Wild Images [15.40230841242637]
本稿では,1つの画像から正確な顔再構成を実現するために,新しい階層型表現ネットワーク(HRN)を提案する。
我々のフレームワークは、異なるビューの詳細な一貫性を考慮し、マルチビューに拡張することができる。
本手法は,再現精度と視覚効果の両方において既存手法より優れる。
論文 参考訳(メタデータ) (2023-02-28T09:24:36Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - AFNet-M: Adaptive Fusion Network with Masks for 2D+3D Facial Expression
Recognition [1.8604727699812171]
2D+3D顔表情認識(FER)は、照明の変化に効果的に対応し、バリエーションを呈することができる。
ほとんどのディープラーニングベースのアプローチは、単純な融合戦略を採用している。
2D+3D FERのためのマスク付き適応核融合ネットワーク (AFNet-M) を提案する。
論文 参考訳(メタデータ) (2022-05-24T04:56:55Z) - VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文 参考訳(メタデータ) (2022-03-14T23:30:58Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。