論文の概要: PlaneSegNet: Fast and Robust Plane Estimation Using a Single-stage
Instance Segmentation CNN
- arxiv url: http://arxiv.org/abs/2103.15428v1
- Date: Mon, 29 Mar 2021 08:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 01:40:54.399307
- Title: PlaneSegNet: Fast and Robust Plane Estimation Using a Single-stage
Instance Segmentation CNN
- Title(参考訳): planesegnet:単段インスタンスセグメンテーションcnnを用いた高速かつロバストな平面推定
- Authors: Yaxu Xie, Jason Rambach, Fangwen Shu, Didier Stricker
- Abstract要約: 本稿では,単一のrgb画像から分割平面領域を推定する,リアルタイム深層ニューラルネットワークアーキテクチャを提案する。
本手法は2段階法に比べてフレームレートが著しく高く,セグメンテーション精度も同等である。
- 参考スコア(独自算出の注目度): 12.251947429149796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instance segmentation of planar regions in indoor scenes benefits visual SLAM
and other applications such as augmented reality (AR) where scene understanding
is required. Existing methods built upon two-stage frameworks show satisfactory
accuracy but are limited by low frame rates. In this work, we propose a
real-time deep neural architecture that estimates piece-wise planar regions
from a single RGB image. Our model employs a variant of a fast single-stage CNN
architecture to segment plane instances. Considering the particularity of the
target detected, we propose Fast Feature Non-maximum Suppression (FF-NMS) to
reduce the suppression errors resulted from overlapping bounding boxes of
planes. We also utilize a Residual Feature Augmentation module in the Feature
Pyramid Network (FPN). Our method achieves significantly higher frame-rates and
comparable segmentation accuracy against two-stage methods. We automatically
label over 70,000 images as ground truth from the Stanford 2D-3D-Semantics
dataset. Moreover, we incorporate our method with a state-of-the-art planar
SLAM and validate its benefits.
- Abstract(参考訳): 屋内シーンにおける平面領域のセグメンテーションは、視覚SLAMやシーン理解が必要な拡張現実(AR)などのアプリケーションに有効である。
既存の2段階フレームワーク上に構築された手法は精度は良好だが、フレームレートは低い。
本研究では,単一のrgb画像から分割平面領域を推定する,リアルタイム深層ニューラルネットワークアーキテクチャを提案する。
我々のモデルは高速単段CNNアーキテクチャの変種を用いて平面インスタンスを分割する。
検出対象の特異性を考慮した高速特徴量非最大抑圧(FF-NMS)を提案し,平面の重なり合う境界ボックスによる抑制誤差を低減する。
また,特徴ピラミッドネットワーク(fpn)における特徴拡張モジュールも活用する。
提案手法は,2段階法に対してフレームレートと同等のセグメンテーション精度を実現する。
我々はStanford 2D-3D-Semanticsデータセットから7万枚以上の画像を自動的に真実とラベル付けします。
さらに,提案手法を最先端の平面SLAMに組み込んで,その利点を検証した。
関連論文リスト
- ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - FMapping: Factorized Efficient Neural Field Mapping for Real-Time Dense
RGB SLAM [3.6985351289638957]
本稿では,リアルタイム高密度RGB SLAMにおける色付き点クラウドマップの連続的推定を容易にする,効率的なニューラルネットワークマッピングフレームワークであるFMappingを紹介する。
本稿では,シーン表現のための効果的な因子化手法を提案し,シーン再構成の不確実性を低減するためのスライディングウィンドウ戦略を提案する。
論文 参考訳(メタデータ) (2023-06-01T11:51:46Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。