Fugu-MT 論文翻訳(概要): Indoor Semantic Scene Understanding using Multi-modality Fusion

論文の概要: Indoor Semantic Scene Understanding using Multi-modality Fusion

arxiv url: http://arxiv.org/abs/2108.07616v1
Date: Tue, 17 Aug 2021 13:30:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-18 13:27:46.691712
Title: Indoor Semantic Scene Understanding using Multi-modality Fusion
Title（参考訳）: マルチモダリティ融合を用いた屋内意味シーン理解
Authors: Muraleekrishna Gopinathan and Giang Truong and Jumana Abu-Khalaf
Abstract要約: 本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Seamless Human-Robot Interaction is the ultimate goal of developing service robotic systems. For this, the robotic agents have to understand their surroundings to better complete a given task. Semantic scene understanding allows a robotic agent to extract semantic knowledge about the objects in the environment. In this work, we present a semantic scene understanding pipeline that fuses 2D and 3D detection branches to generate a semantic map of the environment. The 2D mask proposals from state-of-the-art 2D detectors are inverse-projected to the 3D space and combined with 3D detections from point segmentation networks. Unlike previous works that were evaluated on collected datasets, we test our pipeline on an active photo-realistic robotic environment - BenchBot. Our novelty includes rectification of 3D proposals using projected 2D detections and modality fusion based on object size. This work is done as part of the Robotic Vision Scene Understanding Challenge (RVSU). The performance evaluation demonstrates that our pipeline has improved on baseline methods without significant computational bottleneck.
Abstract（参考訳）: Seamless Human-Robot Interactionは、サービスロボットシステムの開発の最終目標である。そのため、ロボットエージェントは、与えられたタスクを完了させるために、環境を理解する必要がある。セマンティックシーン理解は、ロボットエージェントが環境中の物体に関する意味的な知識を抽出することを可能にする。本研究では,2次元および3次元検出枝を融合して,環境の意味マップを生成する意味シーン理解パイプラインを提案する。最先端の2D検出器による2Dマスクの提案は、3D空間に逆投影され、ポイントセグメンテーションネットワークからの3D検出と組み合わせられる。収集されたデータセットで評価された以前の作業とは異なり、当社では、アクティブなフォトリアリスティックなロボット環境であるbenchbot上でパイプラインをテストしています。提案手法は,投影2次元検出と物体サイズに基づくモーダリティ融合を用いた3次元提案の修正を含む。この作業はrobotive vision scene understanding challenge(rvsu)の一部として行われる。性能評価の結果,本パイプラインは計算のボトルネックを伴わずにベースライン法を改善した。

関連論文リスト

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文参考訳（メタデータ） (2025-07-24T14:53:26Z)
Pixels-to-Graph: Real-time Integration of Building Information Models and Scene Graphs for Semantic-Geometric Human-Robot Understanding [6.924983239916623]
画像画素とLiDARマップから構造化されたシーングラフをリアルタイムに生成する,新しい軽量な手法である Pixels-to-Graph (Pix2G) を紹介する。このフレームワークは、オンボードの計算制約を満たすためだけにCPU上のすべての操作を実行するように設計されている。提案手法は,NASA JPL NeBula-Spot脚ロボットを用いた実世界の実験において,定量的に定性的に評価される。
論文参考訳（メタデータ） (2025-06-27T19:23:31Z)
FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文参考訳（メタデータ） (2025-03-10T23:13:35Z)
Volumetric Mapping with Panoptic Refinement via Kernel Density Estimation for Mobile Robots [2.8668675011182967]
移動ロボットは通常、軽量ネットワークを使用してRGB画像上にオブジェクトを分割し、深度マップを介してそれらをローカライズする。非パラメトリックな統計的手法を用いて分割誤差を補修することで3次元シーン再構成における汎視的セグメンテーション品質の問題に対処する。予測マスクを深度フレームにマッピングし,カーネル密度を用いて分布を推定する。奥行き知覚の外れ値は、追加のパラメータを必要とせずに拒否される。
論文参考訳（メタデータ） (2024-12-15T16:46:23Z)
Memorize What Matters: Emergent Scene Decomposition from Multitraverse [54.487589469432706]
3次元ガウス写像は3次元ガウス写像をベースとしたカメラのみのオフラインマッピングフレームワークである。 3DGMは、同じ領域から複数のRGBビデオをガウスベースの環境マップに変換し、同時に2D短命なオブジェクトセグメンテーションを実行する。 We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and Neural rendering。
論文参考訳（メタデータ） (2024-05-27T14:11:17Z)
Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds [45.87961177297602]
この研究は、人間中心環境におけるロボットのインタラクションと操作のための包括的なフレームワークに、最近の手法を統合することを目的としている。具体的には,コモディティ3Dスキャナの3次元再構成をオープン語彙のインスタンスセグメンテーションに活用する。本研究では,動的オブジェクト検索と引き出し開口を含む実世界の2つの実験において,モデルの性能とロバスト性を示す。
論文参考訳（メタデータ） (2024-04-18T18:01:15Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文参考訳（メタデータ） (2023-08-26T07:38:21Z)
ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。 ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文参考訳（メタデータ） (2023-03-23T11:36:14Z)
Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文参考訳（メタデータ） (2022-07-06T08:52:12Z)
Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文参考訳（メタデータ） (2021-02-01T08:18:24Z)
PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。この2つのタスクを同一のメトリック空間で統一するモデルを提案する。提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-17T05:11:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。