論文の概要: Indoor Semantic Scene Understanding using Multi-modality Fusion
- arxiv url: http://arxiv.org/abs/2108.07616v1
- Date: Tue, 17 Aug 2021 13:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:27:46.691712
- Title: Indoor Semantic Scene Understanding using Multi-modality Fusion
- Title(参考訳): マルチモダリティ融合を用いた屋内意味シーン理解
- Authors: Muraleekrishna Gopinathan and Giang Truong and Jumana Abu-Khalaf
- Abstract要約: 本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Seamless Human-Robot Interaction is the ultimate goal of developing service
robotic systems. For this, the robotic agents have to understand their
surroundings to better complete a given task. Semantic scene understanding
allows a robotic agent to extract semantic knowledge about the objects in the
environment. In this work, we present a semantic scene understanding pipeline
that fuses 2D and 3D detection branches to generate a semantic map of the
environment. The 2D mask proposals from state-of-the-art 2D detectors are
inverse-projected to the 3D space and combined with 3D detections from point
segmentation networks. Unlike previous works that were evaluated on collected
datasets, we test our pipeline on an active photo-realistic robotic environment
- BenchBot. Our novelty includes rectification of 3D proposals using projected
2D detections and modality fusion based on object size. This work is done as
part of the Robotic Vision Scene Understanding Challenge (RVSU). The
performance evaluation demonstrates that our pipeline has improved on baseline
methods without significant computational bottleneck.
- Abstract(参考訳): Seamless Human-Robot Interactionは、サービスロボットシステムの開発の最終目標である。
そのため、ロボットエージェントは、与えられたタスクを完了させるために、環境を理解する必要がある。
セマンティックシーン理解は、ロボットエージェントが環境中の物体に関する意味的な知識を抽出することを可能にする。
本研究では,2次元および3次元検出枝を融合して,環境の意味マップを生成する意味シーン理解パイプラインを提案する。
最先端の2D検出器による2Dマスクの提案は、3D空間に逆投影され、ポイントセグメンテーションネットワークからの3D検出と組み合わせられる。
収集されたデータセットで評価された以前の作業とは異なり、当社では、アクティブなフォトリアリスティックなロボット環境であるbenchbot上でパイプラインをテストしています。
提案手法は,投影2次元検出と物体サイズに基づくモーダリティ融合を用いた3次元提案の修正を含む。
この作業はrobotive vision scene understanding challenge(rvsu)の一部として行われる。
性能評価の結果,本パイプラインは計算のボトルネックを伴わずにベースライン法を改善した。
関連論文リスト
- OccupancyDETR: Making Semantic Scene Completion as Straightforward as
Object Detection [11.663298245614584]
3Dセマンティック占有感は、自律運転のようなロボットアプリケーションのための新しい知覚パラダイムである。
我々は,DETRのようなオブジェクト検出モジュールと3D占有デコーダモジュールからなる,新しい3D意味的占有認識手法OccupancyDETRを提案する。
提案手法がSemantic KITTIデータセットに与える影響を実証し,mIoUが23で,処理速度が毎秒6フレームであることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:06:23Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - 3D Annotation Of Arbitrary Objects In The Wild [0.0]
SLAM, 3D再構成, 3D-to-2D幾何に基づくデータアノテーションパイプラインを提案する。
このパイプラインは、任意のオブジェクトのピクセル単位のアノテーションとともに、3Dおよび2Dバウンディングボックスを作成することができる。
以上の結果から, セマンティックセグメンテーションと2次元バウンディングボックス検出において, 約90%のインターセクション・オーバー・ユニオン(IoU)が一致していることがわかった。
論文 参考訳(メタデータ) (2021-09-15T09:00:56Z) - Synergies Between Affordance and Geometry: 6-DoF Grasp Detection via
Implicit Representations [20.155920256334706]
本研究では,3次元再構築と把持学習が密接な関係にあることを示す。
共有表現のマルチタスク学習を通じて,把握能力と3次元再構築のシナジーを活用することを提案する。
本手法は,成功率の把握において,ベースラインを10%以上上回っている。
論文 参考訳(メタデータ) (2021-04-04T05:46:37Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。
実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文 参考訳(メタデータ) (2020-12-22T22:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。