論文の概要: Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and
3D Localization
- arxiv url: http://arxiv.org/abs/2307.01121v2
- Date: Tue, 21 Nov 2023 21:04:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 18:54:30.360890
- Title: Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and
3D Localization
- Title(参考訳): アーティファクトマッピング:オブジェクト検出と3次元局所化のためのマルチモーダル意味マッピング
- Authors: Federico Rollo, Gennaro Raiola, Andrea Zunino, Nikolaos Tsagarakis,
Arash Ajoudani
- Abstract要約: 既知の環境下でオブジェクトを自律的に検出・ローカライズするフレームワークを提案する。
フレームワークは,RGBデータによる環境理解,マルチモーダルセンサ融合による深度推定,アーティファクト管理という,3つの重要な要素で構成されている。
実験の結果,提案フレームワークは実サンプル環境におけるオブジェクトの98%を後処理なしで正確に検出できることがわかった。
- 参考スコア(独自算出の注目度): 13.473742114288616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geometric navigation is nowadays a well-established field of robotics and the
research focus is shifting towards higher-level scene understanding, such as
Semantic Mapping. When a robot needs to interact with its environment, it must
be able to comprehend the contextual information of its surroundings. This work
focuses on classifying and localising objects within a map, which is under
construction (SLAM) or already built. To further explore this direction, we
propose a framework that can autonomously detect and localize predefined
objects in a known environment using a multi-modal sensor fusion approach
(combining RGB and depth data from an RGB-D camera and a lidar). The framework
consists of three key elements: understanding the environment through RGB data,
estimating depth through multi-modal sensor fusion, and managing artifacts
(i.e., filtering and stabilizing measurements). The experiments show that the
proposed framework can accurately detect 98% of the objects in the real sample
environment, without post-processing, while 85% and 80% of the objects were
mapped using the single RGBD camera or RGB + lidar setup respectively. The
comparison with single-sensor (camera or lidar) experiments is performed to
show that sensor fusion allows the robot to accurately detect near and far
obstacles, which would have been noisy or imprecise in a purely visual or
laser-based approach.
- Abstract(参考訳): 幾何学的ナビゲーションは現在、ロボット工学の確立された分野であり、セマンティックマッピングのような高度なシーン理解に焦点が移っている。
ロボットが環境と相互作用する必要がある場合、その環境の文脈情報を理解できなければならない。
この作業は、構築中の(SLAM)またはすでに構築されている、マップ内のオブジェクトの分類とローカライズに焦点を当てている。
この方向をさらに探求するため,マルチモーダルセンサフュージョン(RGBとRGB-Dカメラとライダーからの深度データを組み合わせた)を用いて,既定義物体を既知の環境下で自律的に検出・ローカライズするフレームワークを提案する。
フレームワークは、RGBデータによる環境理解、マルチモーダルセンサー融合による深さ推定、アーティファクトの管理(フィルタリングと安定化測定)の3つの重要な要素で構成されている。
実験の結果,提案フレームワークは実サンプル環境におけるオブジェクトの98%を後処理なしで正確に検出でき,対象物の85%と80%は1台のRGBDカメラまたはRGB + lidar設定でマッピングされていることがわかった。
単一センサー(カメラまたはライダー)との比較実験により、センサー融合によりロボットは、純粋に視覚的またはレーザーベースのアプローチでノイズや不正確であった近距離障害物を正確に検出できることを示した。
関連論文リスト
- PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - FusionVision: A comprehensive approach of 3D object reconstruction and segmentation from RGB-D cameras using YOLO and fast segment anything [1.5728609542259502]
本稿では,RGB-D画像におけるオブジェクトの堅牢な3次元セグメンテーションに適応した,徹底的なパイプラインであるFusionVisionを紹介する。
提案したFusionVisionパイプラインでは、RGBイメージ領域内のオブジェクトの識別にYOLOを使用している。
これらのコンポーネント間の相乗効果と3次元シーン理解への統合により、オブジェクトの検出とセグメンテーションの密接な融合が保証される。
論文 参考訳(メタデータ) (2024-02-29T22:59:27Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - MVTrans: Multi-View Perception of Transparent Objects [29.851395075937255]
我々は、RGB-Dセンサから信頼できない深度マップを除外し、ステレオ法を拡張した。
提案手法であるMVTransは,複数の知覚能力を持つエンドツーエンドのマルチビューアーキテクチャである。
我々は、新しい手続き型フォトリアリスティックデータセット生成パイプラインを構築し、大規模透明なオブジェクト検出データセットを作成する。
論文 参考訳(メタデータ) (2023-02-22T22:45:28Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - EagerMOT: 3D Multi-Object Tracking via Sensor Fusion [68.8204255655161]
マルチオブジェクトトラッキング(MOT)により、移動ロボットは周囲の物体を3次元空間と時間で位置づけすることで、良好な動作計画とナビゲーションを行うことができる。
既存の方法は、深度センサー(例えばLiDAR)を使用して3D空間のターゲットを検出し追跡するが、信号の間隔が限られているため、検出範囲は限られている。
我々は,両方のセンサモダリティから利用可能な物体を全て統合し,シーンのダイナミックスを適切に解釈する簡易なトラッキング定式化であるeagermotを提案する。
論文 参考訳(メタデータ) (2021-04-29T22:30:29Z) - Camera-Lidar Integration: Probabilistic sensor fusion for semantic
mapping [8.18198392834469]
自動走行車は、常に変化する環境の中を移動しながら、3次元の世界における物体/障害物を知覚し、認識できなければならない。
本稿では,センサリーダ(カメラ,ライダー,IMU,ホイールエンコーダ)の不確実性,車両の動作の補償,セマンティックイメージのラベル確率を組み込んだ確率パイプラインを提案する。
論文 参考訳(メタデータ) (2020-07-09T07:59:39Z) - RGB-D Odometry and SLAM [20.02647320786556]
RGB-Dセンサーは低コストで低消費電力で、LiDARのような従来のレンジセンサーの代替品である。
RGBカメラとは異なり、RGB-Dセンサーは3Dシーン再構成のためのフレーム単位の三角測量の必要性を取り除く追加の深度情報を提供する。
本章は3つの主要な部分から構成される: 第一部では、オドメトリーとSLAMの基本概念を紹介し、RGB-Dセンサーの使用を動機づける。
第2部では、カメラポーズトラッキング、シーンマッピング、ループクローズという、SLAMシステムの主要な3つのコンポーネントについて詳述する。
論文 参考訳(メタデータ) (2020-01-19T17:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。