Fugu-MT 論文翻訳(概要): From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion

論文の概要: From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion

arxiv url: http://arxiv.org/abs/2204.03842v1
Date: Fri, 8 Apr 2022 05:11:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-11 13:11:28.377308
Title: From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion
Title（参考訳）: 2次元画像から3次元モデルへ:深部融合による多視点顔再建
Authors: Weiguang Zhao and Chaolong Yang and Jianan Ye and Yuyao Yan and Xi Yang and Kaizhu Huang
Abstract要約: 弱教師付き学習を用いたマルチビュー3次元顔再構成(MVR)の問題点を考察する。提案モデルでは,既存の最弱教師付きMVRよりも11.4%のRMSE改善を実現した。
参考スコア（独自算出の注目度）: 14.735408751689295
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We consider the problem of Multi-view 3D Face Reconstruction (MVR) with weakly supervised learning that leverages a limited number of 2D face images (e.g. 3) to generate a high-quality 3D face model with very light annotation. Despite their encouraging performance, present MVR methods simply concatenate multi-view image features and pay less attention to critical areas (e.g. eye, brow, nose and mouth). To this end, we propose a novel model called Deep Fusion MVR (DF-MVR) and design a multi-view encoding to a single decoding framework with skip connections, able to extract, integrate, and compensate deep features with attention from multi-view images. In addition, we develop a multi-view face parse network to learn, identify, and emphasize the critical common face area. Finally, though our model is trained with a few 2D images, it can reconstruct an accurate 3D model even if one single 2D image is input. We conduct extensive experiments to evaluate various multi-view 3D face reconstruction methods. Our proposed model attains superior performance, leading to 11.4% RMSE improvement over the existing best weakly supervised MVRs. Source codes are available in the supplementary materials.
Abstract（参考訳）: 少ないアノテーションで高品質な3次元顔モデルを生成するために、限られた2次元顔画像(例3)を利用する弱教師付き学習を伴うマルチビュー3次元顔再構成(MVR)の問題を考える。奨励的なパフォーマンスにもかかわらず、現在のmvrメソッドは、単に多視点画像の特徴を結合し、重要な領域(例えば、目、額、鼻、口)に注意を払わない。この目的のために,Deep Fusion MVR (DF-MVR) と呼ばれる新しいモデルを提案し,マルチビュー画像から深い特徴を抽出し,統合し,補償することができるスキップ接続を持つ単一デコードフレームワークにマルチビューエンコーディングを設計する。さらに,批判的な共通顔領域を学習し,識別し,強調する多視点顔解析ネットワークを開発した。最後に、我々のモデルはいくつかの2d画像で訓練されていますが、単一の2d画像が入力されても正確な3dモデルを再構築することができます。様々な多視点3次元顔再構成法を評価するための広範囲な実験を行った。提案モデルでは,既存の最弱教師付きMVRよりも11.4%のRMSE改善を実現した。ソースコードは補足資料で入手できる。

関連論文リスト

CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。 CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文参考訳（メタデータ） (2025-03-11T03:08:43Z)
Refine3DNet: Scaling Precision in 3D Object Reconstruction from Multi-View RGB Images using Attention [2.037112541541094]
本稿では,自己認識機構を備えた視覚的自動エンコーダと3Dリファインダネットワークを備えたハイブリッド戦略を提案する。提案手法はJTSOと組み合わせて, 単一・多視点3次元再構成における最先端技術よりも優れる。
論文参考訳（メタデータ） (2024-12-01T08:53:39Z)
Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play Deformation [22.5996658181606]
2つの拡張モジュールと、上記の3つの問題に対処するための未投射操作を備えたFancy123を提案する。外観強調モジュールは、2Dマルチビューイメージをリアルピクセルに変形させて、より優れたマルチビュー一貫性を実現する。忠実度向上モジュールは、入力画像に一致するように3Dメッシュを変形させる。入力画像と変形したマルチビュー画像をLRMの生成されたメッシュに投影することで、高い明快さが保証される。
論文参考訳（メタデータ） (2024-11-25T08:31:55Z)
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文参考訳（メタデータ） (2024-10-01T17:29:43Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文参考訳（メタデータ） (2024-06-10T15:26:48Z)
Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文参考訳（メタデータ） (2024-05-31T17:59:56Z)
Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文参考訳（メタデータ） (2024-03-13T18:46:33Z)
2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-29T02:30:31Z)
PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文参考訳（メタデータ） (2023-03-14T17:58:03Z)
High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文参考訳（メタデータ） (2022-11-28T18:59:52Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文参考訳（メタデータ） (2022-07-07T07:23:20Z)
AFNet-M: Adaptive Fusion Network with Masks for 2D+3D Facial Expression Recognition [1.8604727699812171]
2D+3D顔表情認識(FER)は、照明の変化に効果的に対応し、バリエーションを呈することができる。ほとんどのディープラーニングベースのアプローチは、単純な融合戦略を採用している。 2D+3D FERのためのマスク付き適応核融合ネットワーク (AFNet-M) を提案する。
論文参考訳（メタデータ） (2022-05-24T04:56:55Z)
VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文参考訳（メタデータ） (2022-03-14T23:30:58Z)
VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文参考訳（メタデータ） (2021-12-01T02:18:11Z)
Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。 MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-07T13:09:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。