論文の概要: 3D Instance Segmentation Using Deep Learning on RGB-D Indoor Data
- arxiv url: http://arxiv.org/abs/2406.14581v1
- Date: Wed, 19 Jun 2024 08:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:37:49.071548
- Title: 3D Instance Segmentation Using Deep Learning on RGB-D Indoor Data
- Title(参考訳): 深層学習を用いたRGB-D屋内データを用いた3次元インスタンス分割
- Authors: Siddiqui Muhammad Yasir, Amin Muhammad Sadiq, Hyunsik Ahn,
- Abstract要約: 2次元領域をベースとした畳み込みニューラルネットワーク(Mask R-CNN)深層学習モデルにポイントベースレンダリングモジュールを適用し,深度情報と統合してオブジェクトの3Dインスタンスを認識し,セグメント化する。
3Dポイントクラウド座標を生成するために、RGB画像内の認識対象領域のセグメンテーションされた2Dピクセルを奥行き画像の(u,v)ポイントにマージする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D object recognition is a challenging task for intelligent and robot systems in industrial and home indoor environments. It is critical for such systems to recognize and segment the 3D object instances that they encounter on a frequent basis. The computer vision, graphics, and machine learning fields have all given it a lot of attention. Traditionally, 3D segmentation was done with hand-crafted features and designed approaches that did not achieve acceptable performance and could not be generalized to large-scale data. Deep learning approaches have lately become the preferred method for 3D segmentation challenges by their great success in 2D computer vision. However, the task of instance segmentation is currently less explored. In this paper, we propose a novel approach for efficient 3D instance segmentation using red green blue and depth (RGB-D) data based on deep learning. The 2D region based convolutional neural networks (Mask R-CNN) deep learning model with point based rending module is adapted to integrate with depth information to recognize and segment 3D instances of objects. In order to generate 3D point cloud coordinates (x, y, z), segmented 2D pixels (u, v) of recognized object regions in the RGB image are merged into (u, v) points of the depth image. Moreover, we conducted an experiment and analysis to compare our proposed method from various points of view and distances. The experimentation shows the proposed 3D object recognition and instance segmentation are sufficiently beneficial to support object handling in robotic and intelligent systems.
- Abstract(参考訳): 3Dオブジェクト認識は、産業や家庭の屋内環境において、インテリジェントでロボット的なシステムにとって難しい課題である。
このようなシステムでは、頻繁に遭遇する3Dオブジェクトインスタンスを認識し、セグメント化することが重要である。
コンピュータビジョン、グラフィックス、機械学習の分野は、すべて多くの注目を集めています。
伝統的に、3Dセグメンテーションは手作りの機能と設計アプローチで行われ、許容できる性能が得られず、大規模データには一般化できなかった。
ディープラーニングのアプローチは近年,コンピュータビジョンにおける大きな成功によって,3Dセグメンテーションの課題に対して好まれる方法となっている。
しかし、インスタンスセグメンテーションのタスクは、現在あまり検討されていない。
本稿では,深層学習に基づく赤緑色と深度(RGB-D)データを用いた効率的な3次元インスタンスセグメンテーション手法を提案する。
2D領域をベースとした畳み込みニューラルネットワーク(Mask R-CNN)の深部学習モデルにポイントベースのrendingモジュールを組み、深度情報と統合してオブジェクトの3Dインスタンスを認識・セグメント化する。
3Dポイントクラウド座標(x,y,z)を生成するために、RGB画像内の認識対象領域の2D画素(u,v)を深度画像の(u,v)ポイントにマージする。
さらに,提案手法を様々な視点と距離から比較するための実験と解析を行った。
提案した3Dオブジェクト認識とインスタンスセグメンテーションは,ロボットおよびインテリジェントシステムにおけるオブジェクトハンドリングを支援するのに十分有用であることを示す。
関連論文リスト
- Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
本稿では,包括的3次元理解のための新しい大規模言語モデルReason3Dを紹介する。
拡張シーン内の小さな物体を見つけるための階層型マスクデコーダを提案する。
大規模なScanNetとMatterport3Dデータセットにおいて、Reason3Dが顕著な結果が得られることを検証する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Deep Learning Based 3D Segmentation: A Survey [29.402585297221457]
3Dセグメンテーションは、自律運転、ロボティクス、拡張現実、医療画像解析などの応用において、コンピュータビジョンの基本的な問題である。
近年、ディープラーニング技術が3Dセグメンテーションタスクの選択ツールとなっている。
本稿では,このギャップを埋め,ディープラーニングに基づく3Dセグメンテーションにおける最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2021-03-09T13:58:35Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Frustum VoxNet for 3D object detection from RGB-D or Depth images [1.14219428942199]
RGB-Dまたは深度のみの点群からの新しい3次元物体検出システムについて述べる。
我々のシステムはまず2Dで物体を検知する(RGBでも擬似RGBでも)。
我々のシステムの主な新規性は、酸化するフラストラムのどの部分(3D提案)を決定づけることである。
論文 参考訳(メタデータ) (2019-10-12T04:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。