論文の概要: Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis
- arxiv url: http://arxiv.org/abs/2011.06961v3
- Date: Wed, 7 Apr 2021 14:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 23:54:50.018745
- Title: Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis
- Title(参考訳): 室内シーン解析のためのRGB-Dセマンティックセマンティックセグメンテーション
- Authors: Daniel Seichter, Mona K\"ohler, Benjamin Lewandowski, Tim Wengefeld
and Horst-Michael Gross
- Abstract要約: NVIDIARTを用いて高次に最適化可能な,効率的かつ堅牢なRGB-Dセグメンテーション手法を提案する。
RGB-Dセグメンテーションは、RGB画像のみを処理するよりも優れており、ネットワークアーキテクチャが慎重に設計されている場合、リアルタイムに実行可能であることを示す。
- 参考スコア(独自算出の注目度): 16.5390740005143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing scenes thoroughly is crucial for mobile robots acting in different
environments. Semantic segmentation can enhance various subsequent tasks, such
as (semantically assisted) person perception, (semantic) free space detection,
(semantic) mapping, and (semantic) navigation. In this paper, we propose an
efficient and robust RGB-D segmentation approach that can be optimized to a
high degree using NVIDIA TensorRT and, thus, is well suited as a common initial
processing step in a complex system for scene analysis on mobile robots. We
show that RGB-D segmentation is superior to processing RGB images solely and
that it can still be performed in real time if the network architecture is
carefully designed. We evaluate our proposed Efficient Scene Analysis Network
(ESANet) on the common indoor datasets NYUv2 and SUNRGB-D and show that we
reach state-of-the-art performance while enabling faster inference.
Furthermore, our evaluation on the outdoor dataset Cityscapes shows that our
approach is suitable for other areas of application as well. Finally, instead
of presenting benchmark results only, we also show qualitative results in one
of our indoor application scenarios.
- Abstract(参考訳): さまざまな環境で動く移動ロボットには、徹底的にシーンを分析することが不可欠だ。
セマンティックセグメンテーションは、(semantically assisted)人の知覚、(semantic)フリースペース検出、(semantic)マッピング、(semantic)ナビゲーションなど、様々な後続のタスクを強化することができる。
本稿では,NVIDIA TensorRTを用いて高精細度に最適化可能な,効率的で堅牢なRGB-Dセグメンテーション手法を提案する。
RGB-Dセグメンテーションは、RGB画像のみを処理するよりも優れており、ネットワークアーキテクチャが慎重に設計されている場合、リアルタイムに実行可能であることを示す。
提案する効率的なシーン分析ネットワーク (ESANet) を, 室内の共通データセットであるNYUv2とSUNRGB-Dで評価し, より高速な推論を実現するとともに, 最先端の性能に達することを示す。
さらに,アウトドアデータセットCityscapesの評価から,我々のアプローチは他の応用分野にも適していることが示された。
最後に、ベンチマーク結果のみを提示するのではなく、室内アプリケーションシナリオの1つに定性的な結果を示す。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Spatial-information Guided Adaptive Context-aware Network for Efficient
RGB-D Semantic Segmentation [9.198120596225968]
計算パラメータを削減し,アルゴリズムの堅牢性を保証する,効率的な軽量エンコーダデコーダネットワークを提案する。
また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。
論文 参考訳(メタデータ) (2023-08-11T09:02:03Z) - Efficient Multi-Task Scene Analysis with RGB-D Transformers [7.9011213682805215]
本稿では,RGB-D Transformer をベースとしたエンコーダを用いたマルチタスクシーン解析手法 EMSAFormer を提案する。
提案手法では,NVIDIA Jetson AGX Orin 32GB上で39.1 FPSの推論が可能でありながら,最先端の性能を実現している。
論文 参考訳(メタデータ) (2023-06-08T14:41:56Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments [13.274695420192884]
RGB-Dシーン解析(EMSANet)のための効率的なマルチタスク手法を提案する。
パフォーマンスを低下させることなく、モバイルプラットフォーム上で1つのニューラルネットワークを使用して、すべてのタスクをリアルタイムで達成できることを示します。
我々は,NYUv2 と SUNRGB-D の屋内シーン解析のための総合的なマルチタスク設定の結果を初めて提示する。
論文 参考訳(メタデータ) (2022-07-10T20:03:38Z) - Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:20Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。