論文の概要: VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2203.07553v1
- Date: Mon, 14 Mar 2022 23:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 14:53:40.080235
- Title: VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction
- Title(参考訳): VPFusion:シングル・マルチビュー3D再構成のための3Dボリュームと画素配向機能融合
- Authors: Jisan Mahmud, Jan-Michael Frahm
- Abstract要約: VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
- 参考スコア(独自算出の注目度): 23.21446438011893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a unified single and multi-view neural implicit 3D
reconstruction framework VPFusion. VPFusion~attains high-quality reconstruction
using both - 3D feature volume to capture 3D-structure-aware context, and
pixel-aligned image features to capture fine local detail. Existing approaches
use RNN, feature pooling, or attention computed independently in each view for
multi-view fusion. RNNs suffer from long-term memory loss and permutation
variance, while feature pooling or independently computed attention leads to
representation in each view being unaware of other views before the final
pooling step. In contrast, we show improved multi-view feature fusion by
establishing transformer-based pairwise view association. In particular, we
propose a novel interleaved 3D reasoning and pairwise view association
architecture for feature volume fusion across different views. Using this
structure-aware and multi-view-aware feature volume, we show improved 3D
reconstruction performance compared to existing methods. VPFusion improves the
reconstruction quality further by also incorporating pixel-aligned local image
features to capture fine detail. We verify the effectiveness of VPFusion~on the
ShapeNet and ModelNet datasets, where we outperform or perform on-par the
state-of-the-art single and multi-view 3D shape reconstruction methods.
- Abstract(参考訳): 単一・多視点ニューラル暗黙的3次元再構成フレームワークVPFusionを導入する。
VPFusion~3D機能ボリュームを使って高品質な再構築を行い、3D構造対応コンテキストをキャプチャし、ピクセル整列画像機能を使って詳細なローカルディテールをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
RNNは長期記憶損失と置換分散に悩まされる一方、機能プーリングや独立に計算された注意は、最終的なプーリングステップの前に他のビューに気付かないように各ビューで表現される。
対照的に、トランスフォーマーに基づくペアワイズビューアソシエーションを確立することにより、マルチビュー機能融合が改善された。
特に,異なる視点にまたがる特徴量融合のための,新たなインターリーブド3D推論とペアワイズビューアソシエーションアーキテクチャを提案する。
この構造認識およびマルチビュー認識機能ボリュームを用いて,既存の手法と比較して3次元復元性能が向上することを示す。
VPFusionは、微妙なディテールを捉えるために、ピクセルに沿ったローカル画像機能も組み込むことで、再構築品質をさらに向上する。
vpfusionの有効性をshapenetとmodelnetデータセット上で検証し、最先端のシングルおよびマルチビューの3d形状再構成法よりも優れています。
関連論文リスト
- MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - From 2D Images to 3D Model:Weakly Supervised Multi-View Face
Reconstruction with Deep Fusion [26.011557635884568]
多視点画像から高精度な3次元顔形状を再構成する新モデルDeep Fusion MVRを提案する。
具体的には、スキップ接続とアテンションを備えた単一復号化フレームワークのマルチビュー符号化であるMulEn-Unetを紹介する。
我々は,多視点画像内の重要な共通顔領域を学習し,識別し,強調するために,顔解析ネットワークを開発した。
論文 参考訳(メタデータ) (2022-04-08T05:11:04Z) - Implicit Neural Deformation for Multi-View Face Reconstruction [43.88676778013593]
マルチビューRGB画像から新しい3次元顔再構成法を提案する。
従来の3次元形態素モデルに基づく手法とは異なり,本手法は暗黙の表現を利用してリッチな幾何学的特徴を符号化する。
いくつかのベンチマークデータセットに対する実験結果から,提案手法は代替ベースラインよりも優れ,最先端の手法に比べて優れた顔再構成結果が得られることが示された。
論文 参考訳(メタデータ) (2021-12-05T07:02:53Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - A Novel Patch Convolutional Neural Network for View-based 3D Model
Retrieval [36.12906920608775]
ビューベース3次元モデル検索のための新しいパッチ畳み込みニューラルネットワーク(PCNN)を提案する。
提案したPCNNは, それぞれ93.67%, 96.23%と, 最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-09-25T07:18:23Z) - Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。
本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。
パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文 参考訳(メタデータ) (2021-03-24T03:14:49Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。