論文の概要: Semantic Dense Reconstruction with Consistent Scene Segments
- arxiv url: http://arxiv.org/abs/2109.14821v1
- Date: Thu, 30 Sep 2021 03:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-02 04:40:56.036209
- Title: Semantic Dense Reconstruction with Consistent Scene Segments
- Title(参考訳): 連続したシーンセグメントを用いたセマンティックデンス再構成
- Authors: Yingcai Wan, Yanyan Li, Yingxuan You, Cheng Guo, Lijin Fang and
Federico Tombari
- Abstract要約: RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,RGB-Dシーケンスから高密度なセマンティック3Dシーンを再構築する手法を提案する。
まず、各RGB-Dペアは、カメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。
入力されたRGB-Dシーケンスから未知環境の高密度3Dメッシュモデルを漸進的に生成する。
- 参考スコア(独自算出の注目度): 33.0310121044956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, a method for dense semantic 3D scene reconstruction from an
RGB-D sequence is proposed to solve high-level scene understanding tasks.
First, each RGB-D pair is consistently segmented into 2D semantic maps based on
a camera tracking backbone that propagates objects' labels with high
probabilities from full scans to corresponding ones of partial views. Then a
dense 3D mesh model of an unknown environment is incrementally generated from
the input RGB-D sequence. Benefiting from 2D consistent semantic segments and
the 3D model, a novel semantic projection block (SP-Block) is proposed to
extract deep feature volumes from 2D segments of different views. Moreover, the
semantic volumes are fused into deep volumes from a point cloud encoder to make
the final semantic segmentation. Extensive experimental evaluations on public
datasets show that our system achieves accurate 3D dense reconstruction and
state-of-the-art semantic prediction performances simultaneously.
- Abstract(参考訳): 本稿では,RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,高密度なセマンティック3次元シーン再構築手法を提案する。
まず、各RGB-Dペアは、フルスキャンから部分ビューの対応するものへの高い確率でオブジェクトのラベルを伝播するカメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。
そして、入力されたRGB-Dシーケンスから未知環境の高密度な3Dメッシュモデルを生成する。
2次元一貫性のあるセマンティクスセグメントと3次元モデルから恩恵を受け、異なるビューの2次元セマンティクスセグメントから深い特徴量を抽出する新しいセマンティクスプロジェクションブロック(sp-block)を提案する。
さらに、セマンティックボリュームは、ポイントクラウドエンコーダから深いボリュームに融合され、最終的なセマンティックセマンティックセグメンテーションが作成される。
公開データセットの広範な実験評価により,本システムは高精度な3次元高密度再構成と最先端意味予測を同時に達成できることが判明した。
関連論文リスト
- ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - SketchSampler: Sketch-based 3D Reconstruction via View-dependent Depth
Sampling [75.957103837167]
1枚のスケッチ画像に基づいて3次元形状を再構成することは、スパースで不規則なスケッチと正規の高密度な3次元形状との間に大きな領域ギャップがあるため困難である。
既存の作品では、3D座標を直接予測するためにスケッチから抽出されたグローバルな特徴を活用しようとするが、通常は入力スケッチに忠実でない細部を失う。
論文 参考訳(メタデータ) (2022-08-14T16:37:51Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - IMENet: Joint 3D Semantic Scene Completion and 2D Semantic Segmentation
through Iterative Mutual Enhancement [12.091735711364239]
本稿では,3次元セマンティックシーン補完と2次元セマンティックセマンティックセグメンテーションを解決するために,IMENet(Iterative Mutual Enhancement Network)を提案する。
IMENetは、後期予測段階で2つのタスクをインタラクティブに洗練します。
提案手法は,3次元セマンティックシーンの完成と2次元セマンティックセマンティックセグメンテーションの両面において,最先端技術である。
論文 参考訳(メタデータ) (2021-06-29T13:34:20Z) - A Novel 3D-UNet Deep Learning Framework Based on High-Dimensional
Bilateral Grid for Edge Consistent Single Image Depth Estimation [0.45880283710344055]
3DBG-UNetと呼ばれるバイラテラルグリッドベースの3D畳み込みニューラルネットワークは、UNetsでコンパクトな3D二元格子を符号化することで、高次元の特徴空間をパラメータ化する。
別の新しい3DBGES-UNetモデルは、3DBG-UNetを統合して1つのカラービューの正確な深度マップを推測するものである。
論文 参考訳(メタデータ) (2021-05-21T04:53:14Z) - Attention-based Multi-modal Fusion Network for Semantic Scene Completion [35.93265545962268]
本稿では,セマンティック・シーン・コンプリート(SSC)タスクのための,アテンションベースマルチモーダル・フュージョン・ネットワーク(AMFNet)というエンドツーエンドの3D畳み込みネットワークを提案する。
RGB-D画像から抽出した意味的特徴のみを利用する従来の手法と比較して,提案するAMFNetは,効果的な3Dシーン補完とセマンティックセグメンテーションを同時に行うことを学習する。
2次元セマンティックセグメンテーションと、3次元セマンティックコンプリートネットワークにより強化されたマルチモーダルフュージョンアーキテクチャを用いて実現されている。
論文 参考訳(メタデータ) (2020-03-31T02:00:03Z) - Atlas: End-to-End 3D Scene Reconstruction from Posed Images [13.154808583020229]
RGB画像の集合からTSDF(truncated signed distance function)を直接回帰することにより,シーンのエンドツーエンドな3D再構成手法を提案する。
2D CNNは、各画像から特徴を独立して抽出し、その特徴をバックプロジェクションし、ボクセルボリュームに蓄積する。
3D CNNは蓄積した特徴を洗練し、TSDF値を予測する。
論文 参考訳(メタデータ) (2020-03-23T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。