論文の概要: Single-View 3D Object Reconstruction from Shape Priors in Memory
- arxiv url: http://arxiv.org/abs/2003.03711v3
- Date: Thu, 4 Mar 2021 10:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:25:25.704828
- Title: Single-View 3D Object Reconstruction from Shape Priors in Memory
- Title(参考訳): 形状先行記憶からの単視点3次元物体再構成
- Authors: Shuo Yang, Min Xu, Haozhe Xie, Stuart Perry, Jiahao Xia
- Abstract要約: 単一視点3次元オブジェクト再構成のための既存の方法は、高品質な3次元形状を再構築するのに十分な情報を含んでいない。
本稿では,画像中の不足情報を補うために,形状先行を明示的に構成するMem3Dという新しい手法を提案する。
また,入力画像と高い関連性を有する正確な3次元形状の検索を支援するボクセル三重項損失関数を提案する。
- 参考スコア(独自算出の注目度): 15.641803721287628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for single-view 3D object reconstruction directly learn to
transform image features into 3D representations. However, these methods are
vulnerable to images containing noisy backgrounds and heavy occlusions because
the extracted image features do not contain enough information to reconstruct
high-quality 3D shapes. Humans routinely use incomplete or noisy visual cues
from an image to retrieve similar 3D shapes from their memory and reconstruct
the 3D shape of an object. Inspired by this, we propose a novel method, named
Mem3D, that explicitly constructs shape priors to supplement the missing
information in the image. Specifically, the shape priors are in the forms of
"image-voxel" pairs in the memory network, which is stored by a well-designed
writing strategy during training. We also propose a voxel triplet loss function
that helps to retrieve the precise 3D shapes that are highly related to the
input image from shape priors. The LSTM-based shape encoder is introduced to
extract information from the retrieved 3D shapes, which are useful in
recovering the 3D shape of an object that is heavily occluded or in complex
environments. Experimental results demonstrate that Mem3D significantly
improves reconstruction quality and performs favorably against state-of-the-art
methods on the ShapeNet and Pix3D datasets.
- Abstract(参考訳): 画像特徴を3次元表現に変換するために,既存の3次元オブジェクト再構成手法を直接学習する。
しかし,これらの手法は,高品質な3次元形状を再構成するのに十分な情報を含んでいないため,ノイズの多い背景と重閉塞を含む画像に対して脆弱である。
人間は通常、画像から不完全または騒がしい視覚手がかりを使用して、記憶から類似した3d形状を取得し、物体の3d形状を再構築する。
そこで我々はMem3Dという新しい手法を提案し,画像の欠落した情報を補うために,形状の先行を明示的に構築する。
具体的には、形状優先は、トレーニング中によく設計された書き方によって格納されるメモリネットワーク内の「イメージボクセル」ペアの形式である。
また,入力画像に強く関連した正確な3次元形状を形状先行から検索するためのボクセル三重項損失関数を提案する。
lstmベースの形状エンコーダは、取得した3d形状から情報を抽出するために導入され、非常に閉塞された、あるいは複雑な環境での物体の3d形状の復元に有用である。
実験により,Mem3Dは再構成品質を著しく向上し,ShapeNetおよびPix3Dデータセットの最先端手法に対して良好な性能を発揮することが示された。
関連論文リスト
- 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。