論文の概要: Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images
- arxiv url: http://arxiv.org/abs/2105.02047v1
- Date: Wed, 5 May 2021 13:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:46:56.857024
- Title: Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images
- Title(参考訳): 1枚のRGB画像のロバストな3D形状を学習する立方体
- Authors: Florian Kluger, Hanno Ackermann, Eric Brachmann, Michael Ying Yang,
Bodo Rosenhahn
- Abstract要約: 特に、人為的な環境は、一般的にキュービドやシリンダーのようなボリュームプリミティブから成り立っている。
従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できる。
立方体を用いた実世界の環境を有意義に抽象化するプリミティブフィッティングのための堅牢な推定器を提案する。
- 参考スコア(独自算出の注目度): 44.223070672713455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans perceive and construct the surrounding world as an arrangement of
simple parametric models. In particular, man-made environments commonly consist
of volumetric primitives such as cuboids or cylinders. Inferring these
primitives is an important step to attain high-level, abstract scene
descriptions. Previous approaches directly estimate shape parameters from a 2D
or 3D input, and are only able to reproduce simple objects, yet unable to
accurately parse more complex 3D scenes. In contrast, we propose a robust
estimator for primitive fitting, which can meaningfully abstract real-world
environments using cuboids. A RANSAC estimator guided by a neural network fits
these primitives to 3D features, such as a depth map. We condition the network
on previously detected parts of the scene, thus parsing it one-by-one. To
obtain 3D features from a single RGB image, we additionally optimise a feature
extraction CNN in an end-to-end manner. However, naively minimising
point-to-primitive distances leads to large or spurious cuboids occluding parts
of the scene behind. We thus propose an occlusion-aware distance metric
correctly handling opaque scenes. The proposed algorithm does not require
labour-intensive labels, such as cuboid annotations, for training. Results on
the challenging NYU Depth v2 dataset demonstrate that the proposed algorithm
successfully abstracts cluttered real-world 3D scene layouts.
- Abstract(参考訳): 人間は単純なパラメトリックモデルの配列として周囲の世界を理解し、構築する。
特に人為的な環境は、一般的にキュービドやシリンダーのような体積原始体から成り立っている。
これらのプリミティブを推測することは、高レベルで抽象的なシーン記述を実現するための重要なステップである。
従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できるが、より複雑な3Dシーンを正確に解析することはできない。
対照的に,cuboidsを用いて実環境を有意義に抽象化できる原始的適合のためのロバスト推定器を提案する。
ニューラルネットワークによって導かれるRANSAC推定器は、深度マップのようなこれらのプリミティブを3D特徴に適合させる。
ネットワークを予め検出したシーンの一部に条件付けし,それを1つずつ解析する。
単一のRGB画像から3D特徴量を得るため,特徴抽出CNNをエンドツーエンドに最適化する。
しかし、因果的に最大距離を最小化することは、背景のシーンの一部を包み込む大きな、または刺激的なキュービイドに繋がる。
そこで我々は,不透明なシーンを正確に扱えるオクルージョン・アウェア距離計を提案する。
提案アルゴリズムは、トレーニングのために、キュービドアノテーションのような労働集約的なラベルを必要としない。
挑戦的なNYU Depth v2データセットの結果、提案アルゴリズムは、乱雑な現実世界の3Dシーンレイアウトをうまく抽象化することを示した。
関連論文リスト
- AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans [41.17467024268349]
3D環境を理解するには、きめ細かい風景を理解する必要がある。
教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。
平均精度は13.3%,F1スコアは9.1%向上した。
論文 参考訳(メタデータ) (2024-03-24T22:53:16Z) - Robust Shape Fitting for 3D Scene Abstraction [33.84212609361491]
特に,キュービドやシリンダーなどのボリュームプリミティブを用いて人工環境を記述することができる。
プリミティブフィッティングのためのロバストな推定器を提案し、キュービドを用いて複雑な現実世界環境を有意に抽象化する。
NYU Depth v2データセットの結果、提案アルゴリズムは、乱雑な現実世界の3Dシーンレイアウトをうまく抽象化することを示した。
論文 参考訳(メタデータ) (2024-03-15T16:37:43Z) - Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - SketchSampler: Sketch-based 3D Reconstruction via View-dependent Depth
Sampling [75.957103837167]
1枚のスケッチ画像に基づいて3次元形状を再構成することは、スパースで不規則なスケッチと正規の高密度な3次元形状との間に大きな領域ギャップがあるため困難である。
既存の作品では、3D座標を直接予測するためにスケッチから抽出されたグローバルな特徴を活用しようとするが、通常は入力スケッチに忠実でない細部を失う。
論文 参考訳(メタデータ) (2022-08-14T16:37:51Z) - ShAPO: Implicit Representations for Multi-Object Shape, Appearance, and
Pose Optimization [40.36229450208817]
SAPO, 関節多物体検出法, 3次元テクスチャ再構築法, 6次元オブジェクトポーズ法, サイズ推定法を提案する。
ShAPOのキーはシングルショットのパイプラインで、各オブジェクトインスタンスのマスクとともに、形状、外観、遅延コードのポーズをレグレッションする。
提案手法は,NOCSデータセット上でのベースライン全体の性能を,6次元ポーズ推定におけるmAPの8%の絶対的な改善で著しく向上させる。
論文 参考訳(メタデータ) (2022-07-27T17:59:31Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。