Fugu-MT 論文翻訳(概要): Towards Localizing Structural Elements: Merging Geometrical Detection with Semantic Verification in RGB-D Data

論文の概要: Towards Localizing Structural Elements: Merging Geometrical Detection with Semantic Verification in RGB-D Data

arxiv url: http://arxiv.org/abs/2409.06625v1
Date: Tue, 10 Sep 2024 16:28:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 16:49:06.782380
Title: Towards Localizing Structural Elements: Merging Geometrical Detection with Semantic Verification in RGB-D Data
Title（参考訳）: 構造要素の局所化に向けて:RGB-Dデータにおける意味的検証と幾何学的検出の融合
Authors: Ali Tourani, Saad Ejaz, Hriday Bavle, Jose Luis Sanchez-Lopez, Holger Voos,
Abstract要約: 本稿では, 壁面や地表面などの構造成分を局所化するための実時間パイプラインについて, 純三次元平面検出のための幾何計算を統合した。並列なマルチスレッドアーキテクチャを持ち、環境中で検出されたすべての平面のポーズと方程式を正確に推定し、汎視的セグメンテーション検証を用いて地図構造を形成するものをフィルタリングし、検証された構成部品のみを保持する。また、検出されたコンポーネントを統一された3次元シーングラフに(再)関連付けることで、幾何学的精度と意味的理解のギャップを埋めることもできる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: RGB-D cameras supply rich and dense visual and spatial information for various robotics tasks such as scene understanding, map reconstruction, and localization. Integrating depth and visual information can aid robots in localization and element mapping, advancing applications like 3D scene graph generation and Visual Simultaneous Localization and Mapping (VSLAM). While point cloud data containing such information is primarily used for enhanced scene understanding, exploiting their potential to capture and represent rich semantic information has yet to be adequately targeted. This paper presents a real-time pipeline for localizing building components, including wall and ground surfaces, by integrating geometric calculations for pure 3D plane detection followed by validating their semantic category using point cloud data from RGB-D cameras. It has a parallel multi-thread architecture to precisely estimate poses and equations of all the planes detected in the environment, filters the ones forming the map structure using a panoptic segmentation validation, and keeps only the validated building components. Incorporating the proposed method into a VSLAM framework confirmed that constraining the map with the detected environment-driven semantic elements can improve scene understanding and map reconstruction accuracy. It can also ensure (re-)association of these detected components into a unified 3D scene graph, bridging the gap between geometric accuracy and semantic understanding. Additionally, the pipeline allows for the detection of potential higher-level structural entities, such as rooms, by identifying the relationships between building components based on their layout.
Abstract（参考訳）: RGB-Dカメラは、シーン理解、地図再構成、ローカライゼーションといった様々なロボティクスのタスクに対して、リッチで密集した視覚的・空間的な情報を提供する。深度と視覚情報の統合は、ロボットのローカライズと要素マッピング、三次元シーングラフ生成や視覚的同時ローカライズとマッピング(VSLAM)といった先進的なアプリケーションを支援する。このような情報を含むポイントクラウドデータは、主にシーン理解の強化に使用されるが、リッチなセマンティック情報をキャプチャして表現する可能性を活用することは、まだ適切にターゲットされていない。本稿では,RGB-Dカメラの点雲データを用いて,純粋な3次元平面検出のための幾何計算を統合することにより,壁面や地上面を含む建築部品のローカライズをリアルタイムに行うパイプラインを提案する。並列なマルチスレッドアーキテクチャを持ち、環境中で検出されたすべての平面のポーズと方程式を正確に推定し、汎視的セグメンテーション検証を用いて地図構造を形成するものをフィルタリングし、検証された構成部品のみを保持する。提案手法をVSLAMフレームワークに組み込むことにより,検出した環境駆動のセマンティック要素による地図の制約により,シーン理解と地図再構成の精度が向上することを確認した。また、検出されたコンポーネントを統一された3次元シーングラフに(再)関連付けることで、幾何学的精度と意味的理解のギャップを埋めることもできる。さらに、パイプラインは、レイアウトに基づいて構築コンポーネント間の関係を識別することによって、部屋のような潜在的に高レベルな構造エンティティの検出を可能にする。

関連論文リスト

PLANA3R: Zero-shot Metric Planar 3D Reconstruction via Feed-Forward Planar Splatting [56.188624157291024]
提案するPLANA3Rは,提案しない2次元画像から平面3次元再構成を計測するためのポーズレスフレームワークである。トレーニング中に3次元平面アノテーションを必要とする以前のフィードフォワード法とは異なり、PLANA3Rは明確な平面監督なしで平面3次元構造を学習する。本研究は,複数の室内環境データセットに対するPLANA3Rの有効性を検証するとともに,領域外屋内環境への強力な一般化を実証する。
論文参考訳（メタデータ） (2025-10-21T15:15:33Z)
vS-Graphs: Integrating Visual SLAM and Situational Graphs through Multi-level Scene Understanding [0.0]
本稿では,新しいリアルタイムVSLAMフレームワークであるビジュアルSグラフ(vS-Graphs)を紹介する。視覚に基づくシーン理解と地図再構成と理解可能なグラフベース表現を統合している。標準ベンチマークと実世界のデータセットの実験は、vS-Graphsが最先端のVSLAMメソッドより優れていることを示した。
論文参考訳（メタデータ） (2025-03-03T18:15:11Z)
Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文参考訳（メタデータ） (2024-11-25T10:14:10Z)
Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。 MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文参考訳（メタデータ） (2024-10-15T02:04:05Z)
ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文参考訳（メタデータ） (2023-11-29T20:30:18Z)
Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文参考訳（メタデータ） (2023-10-09T02:15:45Z)
Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文参考訳（メタデータ） (2023-04-27T23:03:52Z)
BS3D: Building-scale 3D Reconstruction from RGB-D Images [25.604775584883413]
本稿では,消費者向け深度カメラを用いた大規模3次元再構築のための使い易いフレームワークを提案する。複雑で高価な買収設定とは異なり、当社のシステムはクラウドソーシングを可能にする。
論文参考訳（メタデータ） (2023-01-03T11:46:14Z)
Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文参考訳（メタデータ） (2022-12-17T15:05:25Z)
Object-level 3D Semantic Mapping using a Network of Smart Edge Sensors [25.393382192511716]
我々は,分散エッジセンサのネットワークとオブジェクトレベルの情報からなる多視点3次元意味マッピングシステムを拡張した。提案手法は,数cm以内でのポーズ推定と,実験室環境におけるセンサネットワークを用いた実環境実験により,Behaveデータセットを用いて評価した。
論文参考訳（メタデータ） (2022-11-21T11:13:08Z)
Object-Augmented RGB-D SLAM for Wide-Disparity Relocalisation [3.888848425698769]
本稿では、一貫したオブジェクトマップを構築し、地図内のオブジェクトのセントロイドに基づいて再局在を行うことができるオブジェクト拡張RGB-D SLAMシステムを提案する。
論文参考訳（メタデータ） (2021-08-05T11:02:25Z)
Learning Geometry-Disentangled Representation for Complementary Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。 GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。 3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文参考訳（メタデータ） (2020-12-20T13:35:00Z)
Extending Maps with Semantic and Contextual Object Information for Robot Navigation: a Learning-Based Framework using Visual and Depth Cues [12.984393386954219]
本稿では,RGB-D画像からのセマンティック情報を用いて,シーンのメートル法表現を付加する問題に対処する。オブジェクトレベルの情報を持つ環境の地図表現を拡張化するための完全なフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-13T15:05:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。