論文の概要: FroDO: From Detections to 3D Objects
- arxiv url: http://arxiv.org/abs/2005.05125v1
- Date: Mon, 11 May 2020 14:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 20:29:11.247349
- Title: FroDO: From Detections to 3D Objects
- Title(参考訳): FroDO: 検出から3Dオブジェクトへ
- Authors: Kejie Li, Martin R\"unz, Meng Tang, Lingni Ma, Chen Kong, Tanner
Schmidt, Ian Reid, Lourdes Agapito, Julian Straub, Steven Lovegrove, Richard
Newcombe
- Abstract要約: FroDOは、RGBビデオからオブジェクトインスタンスを正確に3D再構成する手法である。
粗い方法で物体の位置、ポーズ、形状を推測する。
我々はPix3D、Redwood-OS、ScanNetなどの実世界のデータセットを評価した。
- 参考スコア(独自算出の注目度): 29.10716046157072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-oriented maps are important for scene understanding since they jointly
capture geometry and semantics, allow individual instantiation and meaningful
reasoning about objects. We introduce FroDO, a method for accurate 3D
reconstruction of object instances from RGB video that infers object location,
pose and shape in a coarse-to-fine manner. Key to FroDO is to embed object
shapes in a novel learnt space that allows seamless switching between sparse
point cloud and dense DeepSDF decoding. Given an input sequence of localized
RGB frames, FroDO first aggregates 2D detections to instantiate a
category-aware 3D bounding box per object. A shape code is regressed using an
encoder network before optimizing shape and pose further under the learnt shape
priors using sparse and dense shape representations. The optimization uses
multi-view geometric, photometric and silhouette losses. We evaluate on
real-world datasets, including Pix3D, Redwood-OS, and ScanNet, for single-view,
multi-view, and multi-object reconstruction.
- Abstract(参考訳): オブジェクト指向マップは、幾何学と意味論を共同で捉え、個々のインスタンス化とオブジェクトに対する意味のある推論を可能にするため、シーン理解にとって重要である。
オブジェクトの位置, ポーズ, 形状を粗い方法で推定するRGBビデオからのオブジェクトインスタンスの正確な3次元再構成手法であるFroDOを紹介する。
FroDOの鍵は、スパースポイントクラウドとディープSDFデコーディングのシームレスな切り替えを可能にする、新しい学習空間にオブジェクトの形状を埋め込むことである。
ローカライズされたrgbフレームの入力シーケンスが与えられると、フロドはまず2d検出を集約し、オブジェクトごとにカテゴリ対応の3dバウンディングボックスをインスタンス化する。
形状コードは、形状を最適化する前にエンコーダネットワークを用いて回帰し、疎密かつ密集した形状表現を用いて学習された形状の先行で更に振る舞う。
最適化には多視点幾何、測光、シルエットの損失を用いる。
Pix3D, Redwood-OS, ScanNetなどの実世界のデータセットを用いて, シングルビュー, マルチビュー, マルチオブジェクト再構成の評価を行った。
関連論文リスト
- BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - MOLTR: Multiple Object Localisation, Tracking, and Reconstruction from
Monocular RGB Videos [30.541606989348377]
MOLTRはモノクロ画像シーケンスとカメラポーズのみを用いたオブジェクト中心マッピングのソリューションである。
rgbカメラが周囲のビデオをキャプチャすると、複数のオブジェクトをオンライン形式でローカライズし、追跡し、再構築することができる。
屋内および屋外シーンのベンチマークデータセットのローカリゼーション、追跡、および再構築を評価します。
論文 参考訳(メタデータ) (2020-12-09T23:15:08Z) - An Overview Of 3D Object Detection [21.159668390764832]
マルチクラスオブジェクト認識を行うために,RGBデータとポイントクラウドデータの両方を用いるフレームワークを提案する。
最近リリースされたnuScenesデータセット - 大規模なデータセットには多くのデータフォーマットが含まれています - をトレーニングし、提案したアーキテクチャを評価します。
論文 参考訳(メタデータ) (2020-10-29T14:04:50Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z) - Local Implicit Grid Representations for 3D Scenes [24.331110387905962]
本稿では,拡張性と汎用性のために設計された新しい3次元形状表現であるLocal Implicit Grid Representationsを紹介する。
我々はオートエンコーダを訓練し、その大きさで3次元形状の局所的な作物の埋め込みを学習する。
次に,デコーダを形状最適化のコンポーネントとして使用し,重なり合う作物の正規格子上の潜伏符号の集合を解く。
論文 参考訳(メタデータ) (2020-03-19T18:58:13Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。