論文の概要: Atlas: End-to-End 3D Scene Reconstruction from Posed Images
- arxiv url: http://arxiv.org/abs/2003.10432v3
- Date: Wed, 14 Oct 2020 13:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 00:25:10.577524
- Title: Atlas: End-to-End 3D Scene Reconstruction from Posed Images
- Title(参考訳): 画像から3Dのシーンを再現するAtlas
- Authors: Zak Murez, Tarrence van As, James Bartolozzi, Ayan Sinha, Vijay
Badrinarayanan, and Andrew Rabinovich
- Abstract要約: RGB画像の集合からTSDF(truncated signed distance function)を直接回帰することにより,シーンのエンドツーエンドな3D再構成手法を提案する。
2D CNNは、各画像から特徴を独立して抽出し、その特徴をバックプロジェクションし、ボクセルボリュームに蓄積する。
3D CNNは蓄積した特徴を洗練し、TSDF値を予測する。
- 参考スコア(独自算出の注目度): 13.154808583020229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an end-to-end 3D reconstruction method for a scene by directly
regressing a truncated signed distance function (TSDF) from a set of posed RGB
images. Traditional approaches to 3D reconstruction rely on an intermediate
representation of depth maps prior to estimating a full 3D model of a scene. We
hypothesize that a direct regression to 3D is more effective. A 2D CNN extracts
features from each image independently which are then back-projected and
accumulated into a voxel volume using the camera intrinsics and extrinsics.
After accumulation, a 3D CNN refines the accumulated features and predicts the
TSDF values. Additionally, semantic segmentation of the 3D model is obtained
without significant computation. This approach is evaluated on the Scannet
dataset where we significantly outperform state-of-the-art baselines (deep
multiview stereo followed by traditional TSDF fusion) both quantitatively and
qualitatively. We compare our 3D semantic segmentation to prior methods that
use a depth sensor since no previous work attempts the problem with only RGB
input.
- Abstract(参考訳): RGB画像の集合からTSDF(truncated signed distance function)を直接回帰することにより,シーンのエンドツーエンドな3D再構成手法を提案する。
従来の3次元再構成手法は、シーンの完全な3次元モデルを推定する前に、深度マップの中間表現に依存する。
3dへの直接回帰がより効果的であると仮定する。
2D CNNは、各画像から特徴を独立して抽出し、カメラ内在性および外在性を用いて後方投影し、ボクセル体積に蓄積する。
蓄積後、3D CNNは蓄積した特徴を洗練し、TSDF値を予測する。
さらに、3次元モデルのセマンティックセグメンテーションは、重要な計算をせずに得られる。
このアプローチはScannetデータセットで評価され,最先端のベースライン(ディープ・マルチビューステレオと従来のTSDF融合)を定量的・定性的に大きく上回る。
rgbのみの入力でこの問題を未解決なため,深度センサを用いた従来の手法と3d意味セグメンテーションを比較した。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - ImplicitVol: Sensorless 3D Ultrasound Reconstruction with Deep Implicit
Representation [13.71137201718831]
本研究の目的は, 深い暗示表現を持つ2次元自由手超音波画像の集合から, 3次元ボリュームのセンサレス再構成を実現することである。
3次元体積を離散ボクセル格子として表現する従来の方法とは対照的に、連続函数のゼロレベル集合としてパラメータ化することでそうする。
提案モデルでは,インプリシットボル(ImplicitVol)が入力として2Dスキャンと推定位置を3Dで抽出し,推定した3D位置を共同で再現し,3Dボリュームの完全な再構築を学習する。
論文 参考訳(メタデータ) (2021-09-24T17:59:18Z) - An Effective Loss Function for Generating 3D Models from Single 2D Image
without Rendering [0.0]
微分レンダリングは、シングルビュー3Dレコンストラクションに適用できる非常に成功した技術である。
電流は、ある3d再構成対象のレンダリング画像と、与えられたマッチング視点からの接地画像との間のピクセルによる損失を利用して、3d形状のパラメータを最適化する。
再構成された3次元点群の投影が地上真理物体のシルエットをどの程度覆うかを評価する新しい効果的な損失関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T00:02:18Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。