Fugu-MT 論文翻訳(概要): From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion

論文の概要: From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion

arxiv url: http://arxiv.org/abs/2204.03842v4
Date: Mon, 22 Jan 2024 06:30:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 00:24:35.413113
Title: From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion
Title（参考訳）: 2次元画像から3次元モデルへ:深部融合による多視点顔再建
Authors: Weiguang Zhao and Chaolong Yang and Jianan Ye and Rui Zhang and Yuyao Yan and Xi Yang and Bin Dong and Amir Hussain and Kaizhu Huang
Abstract要約: 多視点画像から高精度な3次元顔形状を再構成する新モデルDeep Fusion MVRを提案する。具体的には、スキップ接続とアテンションを備えた単一復号化フレームワークのマルチビュー符号化であるMulEn-Unetを紹介する。我々は,多視点画像内の重要な共通顔領域を学習し,識別し,強調するために,顔解析ネットワークを開発した。
参考スコア（独自算出の注目度）: 26.011557635884568
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While weakly supervised multi-view face reconstruction (MVR) is garnering increased attention, one critical issue still remains open: how to effectively fuse multiple image information to reconstruct high-precision 3D models. In this regard, we propose a novel model called Deep Fusion MVR (DF-MVR) to reconstruct high-precision 3D facial shapes from multi-view images. Specifically, we introduce MulEn-Unet, a multi-view encoding to single decoding framework with skip connections and attention. This design allows for the extraction, integration, and compensation of deep features with attention from multi-view images. Furthermore, we adopt the involution kernel to enrich deep fusion features with channel features. In addition, we develop the face parse network to learn, identify, and emphasize the critical common face area within multi-view images. Experiments on Pixel-Face and Bosphorus datasets indicate the superiority of our model. Without 3D annotation, DF-MVR achieves 5.2% and 3.0% RMSE improvement over the existing weakly supervised MVRs respectively on Pixel-Face and Bosphorus dataset. Code will be available publicly at https://github.com/weiguangzhao/DF_MVR.
Abstract（参考訳）: 弱教師付き多視点顔再構成(MVR)が注目度を高めつつある一方で、複数の画像情報を効果的に融合して高精度な3Dモデルを再構成する方法という重要な問題がまだ残っている。本稿では,多視点画像から高精度な3次元顔形状を再構成する新しいモデルであるDeep Fusion MVR(DF-MVR)を提案する。具体的には,スキップ接続と注意力を備えた単一復号化フレームワークのためのマルチビューエンコーディングである mulen-unet を紹介する。この設計により、マルチビュー画像から注意を引いた深い特徴の抽出、統合、補償が可能になる。さらに,チャネル機能で深い融合機能を豊かにするために,畳み込みカーネルを採用する。さらに,多視点画像における重要な共通顔領域の学習,識別,強調を行う顔解析ネットワークを開発した。 pixel-faceとbosphorusデータセットの実験は、モデルが優れていることを示している。 3Dアノテーションがなければ、DF-MVRはPixel-FaceデータセットとBosphorusデータセットで、既存の弱教師付きMVRに対して5.2%と3.0%のRMSE改善を達成する。コードはhttps://github.com/weiguangzhao/DF_MVR.comで公開される。

関連論文リスト

CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。 CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文参考訳（メタデータ） (2025-03-11T03:08:43Z)
Refine3DNet: Scaling Precision in 3D Object Reconstruction from Multi-View RGB Images using Attention [2.037112541541094]
本稿では,自己認識機構を備えた視覚的自動エンコーダと3Dリファインダネットワークを備えたハイブリッド戦略を提案する。提案手法はJTSOと組み合わせて, 単一・多視点3次元再構成における最先端技術よりも優れる。
論文参考訳（メタデータ） (2024-12-01T08:53:39Z)
Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play Deformation [22.5996658181606]
2つの拡張モジュールと、上記の3つの問題に対処するための未投射操作を備えたFancy123を提案する。外観強調モジュールは、2Dマルチビューイメージをリアルピクセルに変形させて、より優れたマルチビュー一貫性を実現する。忠実度向上モジュールは、入力画像に一致するように3Dメッシュを変形させる。入力画像と変形したマルチビュー画像をLRMの生成されたメッシュに投影することで、高い明快さが保証される。
論文参考訳（メタデータ） (2024-11-25T08:31:55Z)
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文参考訳（メタデータ） (2024-10-01T17:29:43Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文参考訳（メタデータ） (2024-06-10T15:26:48Z)
Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文参考訳（メタデータ） (2024-05-31T17:59:56Z)
Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文参考訳（メタデータ） (2024-03-13T18:46:33Z)
2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-29T02:30:31Z)
PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文参考訳（メタデータ） (2023-03-14T17:58:03Z)
High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文参考訳（メタデータ） (2022-11-28T18:59:52Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文参考訳（メタデータ） (2022-07-07T07:23:20Z)
AFNet-M: Adaptive Fusion Network with Masks for 2D+3D Facial Expression Recognition [1.8604727699812171]
2D+3D顔表情認識(FER)は、照明の変化に効果的に対応し、バリエーションを呈することができる。ほとんどのディープラーニングベースのアプローチは、単純な融合戦略を採用している。 2D+3D FERのためのマスク付き適応核融合ネットワーク (AFNet-M) を提案する。
論文参考訳（メタデータ） (2022-05-24T04:56:55Z)
VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文参考訳（メタデータ） (2022-03-14T23:30:58Z)
VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文参考訳（メタデータ） (2021-12-01T02:18:11Z)
Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。 MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-07T13:09:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。