論文の概要: CoReNet: Coherent 3D scene reconstruction from a single RGB image
- arxiv url: http://arxiv.org/abs/2004.12989v2
- Date: Wed, 5 Aug 2020 15:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:39:50.923765
- Title: CoReNet: Coherent 3D scene reconstruction from a single RGB image
- Title(参考訳): CoReNet:1枚のRGB画像からのコヒーレントな3Dシーン再構築
- Authors: Stefan Popov and Pablo Bauszat and Vittorio Ferrari
- Abstract要約: 我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
- 参考スコア(独自算出の注目度): 43.74240268086773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in deep learning techniques have allowed recent work to reconstruct
the shape of a single object given only one RBG image as input. Building on
common encoder-decoder architectures for this task, we propose three
extensions: (1) ray-traced skip connections that propagate local 2D information
to the output 3D volume in a physically correct manner; (2) a hybrid 3D volume
representation that enables building translation equivariant models, while at
the same time encoding fine object details without an excessive memory
footprint; (3) a reconstruction loss tailored to capture overall object
geometry. Furthermore, we adapt our model to address the harder task of
reconstructing multiple objects from a single image. We reconstruct all objects
jointly in one pass, producing a coherent reconstruction, where all objects
live in a single consistent 3D coordinate frame relative to the camera and they
do not intersect in 3D space. We also handle occlusions and resolve them by
hallucinating the missing object parts in the 3D volume. We validate the impact
of our contributions experimentally both on synthetic data from ShapeNet as
well as real images from Pix3D. Our method improves over the state-of-the-art
single-object methods on both datasets. Finally, we evaluate performance
quantitatively on multiple object reconstruction with synthetic scenes
assembled from ShapeNet objects.
- Abstract(参考訳): 深層学習技術の進歩により、1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築することができるようになった。
本研究では,(1)局所的な2d情報を物理的に正しい方法で出力された3dボリュームに伝達するレイトレース・スキップ接続,(2)変換等価モデルの構築を可能にするハイブリッド3dボリューム表現,同時にメモリフットプリントを過大にすることなく詳細なオブジェクト詳細をエンコードする,(3)全体オブジェクト幾何をキャプチャする復元損失,の3つの拡張を提案する。
さらに,1つの画像から複数のオブジェクトを再構成する作業に,我々のモデルを適用する。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
また,3dボリュームの欠片を幻覚させることで咬合を処理し,解決する。
提案するコントリビューションがShapeNetの合成データおよびPix3Dの実際の画像に与える影響を実験的に検証した。
本手法は,両データセットの最先端の単一オブジェクト法よりも優れている。
最後に、ShapeNetオブジェクトから合成シーンを組み立てた複数のオブジェクト再構成の性能を定量的に評価する。
関連論文リスト
- Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - Iterative Superquadric Recomposition of 3D Objects from Multiple Views [77.53142165205283]
2次元ビューから直接3次元スーパークワッドリックを意味部品として用いたオブジェクトを再構成するフレームワークISCOを提案する。
我々のフレームワークは、再構成エラーが高い場合に、反復的に新しいスーパークワッドリックを追加します。
これは、野生の画像からでも、より正確な3D再構成を提供する。
論文 参考訳(メタデータ) (2023-09-05T10:21:37Z) - O$^2$-Recon: Completing 3D Reconstruction of Occluded Objects in the Scene with a Pre-trained 2D Diffusion Model [28.372289119872764]
咬合は、RGB-Dビデオからの3D再構成において一般的な問題であり、しばしばオブジェクトの完全な再構成をブロックする。
本研究では,物体の隠れた部分の完全な表面を再構築する2次元拡散に基づくインペインティングモデルを用いて,新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-18T14:38:31Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。
セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文 参考訳(メタデータ) (2022-11-22T06:19:37Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - AutoSweep: Recovering 3D Editable Objectsfrom a Single Photograph [54.701098964773756]
セマンティックな部分で3Dオブジェクトを復元し、直接編集することを目的としている。
我々の研究は、一般化された立方体と一般化されたシリンダーという、2種類の原始的な形状の物体を回収する試みである。
提案アルゴリズムは,高品質な3Dモデルを復元し,既存手法のインスタンスセグメンテーションと3D再構成の両方で性能を向上する。
論文 参考訳(メタデータ) (2020-05-27T12:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。