論文の概要: From 2D Images to 3D Model:Weakly Supervised Multi-View Face
Reconstruction with Deep Fusion
- arxiv url: http://arxiv.org/abs/2204.03842v3
- Date: Thu, 4 Jan 2024 15:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 18:07:11.147979
- Title: From 2D Images to 3D Model:Weakly Supervised Multi-View Face
Reconstruction with Deep Fusion
- Title(参考訳): 2次元画像から3次元モデルへ:深部融合による多視点顔再建
- Authors: Weiguang Zhao and Chaolong Yang and Jianan Ye and Rui Zhang and Yuyao
Yan and Xi Yang and Bin Dong and Amir Hussain and Kaizhu Huang
- Abstract要約: 我々はDeep Fusion MVR(DF-MVR)と呼ばれる新しいモデルを提案する。
スキップ接続による単一復号化フレームワークへのマルチビュー符号化を設計する。
我々は,多視点画像内の重要な共通顔領域を学習し,識別し,強調するために,顔解析ネットワークを開発した。
- 参考スコア(独自算出の注目度): 26.011557635884568
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While weakly supervised multi-view face reconstruction (MVR) is garnering
increased attention, one critical issue still remains open: how to effectively
fuse multiple image information to reconstruct high-precision 3D models. In
this regard, we propose a novel model called Deep Fusion MVR (DF-MVR) and
design a multi-view encoding to single decoding framework with skip
connections, able to extract, integrate, and compensate deep features with
attention from multi-view images. Furthermore, we adopt the involution kernel
to enrich deep fusion features with channel features. In addition, we develop
the face parse network to learn, identify, and emphasize the critical common
face area within multi-view images. Experiments on Pixel-Face and Bosphorus
datasets indicate the superiority of our model. Without 3D annotation, DF-MVR
achieves 5.2% and 3.0% RMSE improvement over the existing weakly supervised
MVRs respectively on Pixel-Face and Bosphorus dataset. Code will be available
publicly at https://github.com/weiguangzhao/DF_MVR.
- Abstract(参考訳): 弱教師付き多視点顔再構成(MVR)が注目度を高めつつある一方で、複数の画像情報を効果的に融合して高精度な3Dモデルを再構成する方法という重要な問題がまだ残っている。
本稿では,Deep Fusion MVR (DF-MVR) と呼ばれる新しいモデルを提案し,マルチビュー画像から深い特徴を抽出し,統合し,補償することができる,スキップ接続による単一デコードフレームワークへのマルチビューエンコーディングを設計する。
さらに,チャネル機能で深い融合機能を豊かにするために,畳み込みカーネルを採用する。
さらに,多視点画像における重要な共通顔領域の学習,識別,強調を行う顔解析ネットワークを開発した。
pixel-faceとbosphorusデータセットの実験は、モデルが優れていることを示している。
3Dアノテーションがなければ、DF-MVRはPixel-FaceデータセットとBosphorusデータセットで、既存の弱教師付きMVRに対して5.2%と3.0%のRMSE改善を達成する。
コードはhttps://github.com/weiguangzhao/DF_MVR.comで公開される。
関連論文リスト
- Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play Deformation [22.5996658181606]
2つの拡張モジュールと、上記の3つの問題に対処するための未投射操作を備えたFancy123を提案する。
外観強調モジュールは、2Dマルチビューイメージをリアルピクセルに変形させて、より優れたマルチビュー一貫性を実現する。
忠実度向上モジュールは、入力画像に一致するように3Dメッシュを変形させる。
入力画像と変形したマルチビュー画像をLRMの生成されたメッシュに投影することで、高い明快さが保証される。
論文 参考訳(メタデータ) (2024-11-25T08:31:55Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。
しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。
本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T02:30:31Z) - VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文 参考訳(メタデータ) (2022-03-14T23:30:58Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。