論文の概要: ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction
- arxiv url: http://arxiv.org/abs/2311.18068v2
- Date: Sun, 3 Dec 2023 08:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:52:08.331184
- Title: ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction
- Title(参考訳): ALSTER:オンライン3Dセマンティック再構築の専門家
- Authors: Silvan Weder, Francis Engelmann, Johannes L. Sch\"onberger, Akihito
Seki, Marc Pollefeys, Martin R. Oswald
- Abstract要約: 本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
- 参考スコア(独自算出の注目度): 62.599588577671796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an online 3D semantic segmentation method that incrementally
reconstructs a 3D semantic map from a stream of RGB-D frames. Unlike offline
methods, ours is directly applicable to scenarios with real-time constraints,
such as robotics or mixed reality. To overcome the inherent challenges of
online methods, we make two main contributions. First, to effectively extract
information from the input RGB-D video stream, we jointly estimate geometry and
semantic labels per frame in 3D. A key focus of our approach is to reason about
semantic entities both in the 2D input and the local 3D domain to leverage
differences in spatial context and network architectures. Our method predicts
2D features using an off-the-shelf segmentation network. The extracted 2D
features are refined by a lightweight 3D network to enable reasoning about the
local 3D structure. Second, to efficiently deal with an infinite stream of
input RGB-D frames, a subsequent network serves as a temporal expert predicting
the incremental scene updates by leveraging 2D, 3D, and past information in a
learned manner. These updates are then integrated into a global scene
representation. Using these main contributions, our method can enable scenarios
with real-time constraints and can scale to arbitrary scene sizes by processing
and updating the scene only in a local region defined by the new measurement.
Our experiments demonstrate improved results compared to existing online
methods that purely operate in local regions and show that complementary
sources of information can boost the performance. We provide a thorough
ablation study on the benefits of different architectural as well as
algorithmic design decisions. Our method yields competitive results on the
popular ScanNet benchmark and SceneNN dataset.
- Abstract(参考訳): rgb-dフレームのストリームから3dセマンティックマップを漸進的に再構築するオンライン3dセマンティックセグメンテーション手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイム制約のあるシナリオに直接適用できます。
オンライン手法の本質的な課題を克服するために、主な貢献は2つある。
まず、入力されたRGB-Dビデオストリームから情報を効果的に抽出するために、3次元のフレームごとの幾何とセマンティックラベルを共同で推定する。
このアプローチの重要な焦点は、2d入力とローカル3dドメインの両方で意味的エンティティを推論し、空間的コンテキストとネットワークアーキテクチャの違いを活用することである。
本手法は市販セグメンテーションネットワークを用いて2次元特徴量を予測する。
抽出された2d特徴を軽量な3dネットワークにより洗練し、局所的な3d構造についての推論を可能にする。
第2に、入力されたRGB-Dフレームの無限ストリームを効率的に処理するために、2D、3D、過去の情報を学習方法で活用することにより、インクリメンタルなシーン更新を予測する時間的専門家として機能する。
これらの更新はグローバルなシーン表現に統合される。
これらの主な貢献により,実時間制約のあるシナリオを可能にし,新たな測定で定義された局所領域でのみシーンを処理し,更新することにより任意のシーンサイズにスケールすることができる。
実験では, ローカルで純粋に運用されている既存のオンライン手法と比較して, 結果が向上し, 補完的な情報ソースが性能を向上させることを示す。
我々は、異なるアーキテクチャの利点とアルゴリズム設計決定に関する徹底的なアブレーション研究を提供する。
提案手法は,ScanNetベンチマークとSceneNNデータセットの競合結果を得る。
関連論文リスト
- SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video [2.2299983745857896]
本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。
本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
論文 参考訳(メタデータ) (2023-03-16T11:53:29Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。