論文の概要: Learnable Earth Parser: Discovering 3D Prototypes in Aerial Scans
- arxiv url: http://arxiv.org/abs/2304.09704v2
- Date: Thu, 28 Mar 2024 17:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 22:12:46.144532
- Title: Learnable Earth Parser: Discovering 3D Prototypes in Aerial Scans
- Title(参考訳): アース・パーサー:空中スキャンで3Dプロトタイプを発見
- Authors: Romain Loiseau, Elliot Vincent, Mathieu Aubry, Loic Landrieu,
- Abstract要約: そこで本研究では,現実のシーンの大規模な3次元スキャンを,容易に解釈可能な形状で解析するための教師なし手法を提案する。
提案手法は,入力された3次元点群を学習された3次元形状の小さな集合に分解する確率的再構成モデルに基づく。
実世界の様々なシナリオから得られた7つの大型LiDARスキャンのデータセット上で,本モデルの有用性を実証する。
- 参考スコア(独自算出の注目度): 20.030706182672144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an unsupervised method for parsing large 3D scans of real-world scenes with easily-interpretable shapes. This work aims to provide a practical tool for analyzing 3D scenes in the context of aerial surveying and mapping, without the need for user annotations. Our approach is based on a probabilistic reconstruction model that decomposes an input 3D point cloud into a small set of learned prototypical 3D shapes. The resulting reconstruction is visually interpretable and can be used to perform unsupervised instance and low-shot semantic segmentation of complex scenes. We demonstrate the usefulness of our model on a novel dataset of seven large aerial LiDAR scans from diverse real-world scenarios. Our approach outperforms state-of-the-art unsupervised methods in terms of decomposition accuracy while remaining visually interpretable. Our code and dataset are available at https://romainloiseau.fr/learnable-earth-parser/
- Abstract(参考訳): そこで本研究では,現実のシーンの大規模な3次元スキャンを,容易に解釈可能な形状で解析するための教師なし手法を提案する。
本研究の目的は,ユーザアノテーションを必要とせずに,航空測量・地図の文脈で3Dシーンを解析する実用的なツールを提供することである。
提案手法は,入力された3次元点群を学習された3次元形状の小さな集合に分解する確率的再構成モデルに基づく。
結果として得られる再構成は視覚的に解釈可能であり、複雑なシーンの教師なしインスタンスとローショットセマンティックセマンティックセグメンテーションの実行に使用できる。
実世界の様々なシナリオから得られた7つの大型LiDARスキャンのデータセット上で,本モデルの有用性を実証する。
本手法は、視覚的に解釈可能なままの分解精度において、最先端の教師なし手法よりも優れる。
私たちのコードとデータセットはhttps://romainloiseau.fr/learnable-earth-parser/で公開されています。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - 3D LiDAR Mapping in Dynamic Environments Using a 4D Implicit Neural Representation [33.92758288570465]
正確な地図の構築は、自動運転車の信頼性の高いローカライゼーション、計画、ナビゲーションを可能にする重要なビルディングブロックである。
我々は、4Dシーンを新しい暗黙的ニューラルマップ表現に符号化する。
提案手法は, 高精度で完全な3次元地図を再構成しながら, 入力点雲の動的部分を除去することができる。
論文 参考訳(メタデータ) (2024-05-06T11:46:04Z) - LASA: Instance Reconstruction from Real Scans using A Large-scale
Aligned Shape Annotation Dataset [17.530432165466507]
本稿では,新しいクロスモーダル形状再構成法とOccGOD法を提案する。
本手法は,インスタンスレベルのシーン再構成と3次元オブジェクト検出の両タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T18:50:10Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images [44.223070672713455]
特に、人為的な環境は、一般的にキュービドやシリンダーのようなボリュームプリミティブから成り立っている。
従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できる。
立方体を用いた実世界の環境を有意義に抽象化するプリミティブフィッティングのための堅牢な推定器を提案する。
論文 参考訳(メタデータ) (2021-05-05T13:36:00Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。