論文の概要: Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images
- arxiv url: http://arxiv.org/abs/2006.12250v2
- Date: Tue, 7 Jul 2020 09:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 06:22:18.051354
- Title: Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images
- Title(参考訳): Pix2Vox++: 複数画像からのマルチスケールコンテキスト対応3Dオブジェクト再構成
- Authors: Haozhe Xie, Hongxun Yao, Shengping Zhang, Shangchen Zhou, Wenxiu Sun
- Abstract要約: Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
- 参考スコア(独自算出の注目度): 56.652027072552606
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recovering the 3D shape of an object from single or multiple images with deep
neural networks has been attracting increasing attention in the past few years.
Mainstream works (e.g. 3D-R2N2) use recurrent neural networks (RNNs) to
sequentially fuse feature maps of input images. However, RNN-based approaches
are unable to produce consistent reconstruction results when given the same
input images with different orders. Moreover, RNNs may forget important
features from early input images due to long-term memory loss. To address these
issues, we propose a novel framework for single-view and multi-view 3D object
reconstruction, named Pix2Vox++. By using a well-designed encoder-decoder, it
generates a coarse 3D volume from each input image. A multi-scale context-aware
fusion module is then introduced to adaptively select high-quality
reconstructions for different parts from all coarse 3D volumes to obtain a
fused 3D volume. To further correct the wrongly recovered parts in the fused 3D
volume, a refiner is adopted to generate the final output. Experimental results
on the ShapeNet, Pix3D, and Things3D benchmarks show that Pix2Vox++ performs
favorably against state-of-the-art methods in terms of both accuracy and
efficiency.
- Abstract(参考訳): ディープニューラルネットワークを用いた単一または複数の画像から物体の3次元形状を復元することは、ここ数年で注目を集めている。
メインストリームワーク(例:3D-R2N2)は、リカレントニューラルネットワーク(RNN)を使用して入力画像の特徴マップを逐次融合する。
しかし、RNNベースのアプローチでは、異なる順序で同じ入力画像が与えられると、一貫した再構成結果が得られない。
さらに、RNNは、長期記憶喪失による初期入力画像から重要な特徴を忘れる可能性がある。
これらの問題に対処するため,Pix2Vox++という単一ビューと多視点3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
融合3dボリュームの誤回収部をさらに補正するため、精錬器を採用して最終出力を生成する。
ShapeNet, Pix3D, Things3Dベンチマークの実験結果から、Pix2Vox++は精度と効率の両面で最先端のメソッドに対して好適に動作することが示された。
関連論文リスト
- MV2Cyl: Reconstructing 3D Extrusion Cylinders from Multi-View Images [13.255044855902408]
2次元多視点画像から3次元を再構成する新しい手法であるMV2Cylを提案する。
本研究では,2次元スケッチと抽出パラメータ推定において最適な精度で最適な再構成結果を得る。
論文 参考訳(メタデータ) (2024-06-16T08:54:38Z) - IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality
3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。
画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。
IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文 参考訳(メタデータ) (2024-02-13T18:59:51Z) - Free3D: Consistent Novel View Synthesis without 3D Representation [63.931920010054064]
Free3Dは単分子開集合新規ビュー合成(NVS)の簡易的高精度な方法である
同様のアプローチを採った他の作品と比較して,明快な3D表現に頼らずに大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-12-07T18:59:18Z) - DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction
Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。
再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文 参考訳(メタデータ) (2023-11-15T18:58:41Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z) - Atlas: End-to-End 3D Scene Reconstruction from Posed Images [13.154808583020229]
RGB画像の集合からTSDF(truncated signed distance function)を直接回帰することにより,シーンのエンドツーエンドな3D再構成手法を提案する。
2D CNNは、各画像から特徴を独立して抽出し、その特徴をバックプロジェクションし、ボクセルボリュームに蓄積する。
3D CNNは蓄積した特徴を洗練し、TSDF値を予測する。
論文 参考訳(メタデータ) (2020-03-23T17:59:15Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。