論文の概要: FusionVision: A comprehensive approach of 3D object reconstruction and
segmentation from RGB-D cameras using YOLO and fast segment anything
- arxiv url: http://arxiv.org/abs/2403.00175v1
- Date: Thu, 29 Feb 2024 22:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:43:45.056636
- Title: FusionVision: A comprehensive approach of 3D object reconstruction and
segmentation from RGB-D cameras using YOLO and fast segment anything
- Title(参考訳): FusionVision: YOLOと高速セグメンテーションを用いたRGB-Dカメラからの3Dオブジェクト再構成とセグメンテーションの総合的アプローチ
- Authors: Safouane El Ghazouali, Youssef Mhirit, Ali Oukhrid, Umberto
Michelucci, Hichem Nouira
- Abstract要約: 本稿では,RGB-D画像におけるオブジェクトの堅牢な3次元セグメンテーションに適応した,徹底的なパイプラインであるFusionVisionを紹介する。
提案したFusionVisionパイプラインでは、RGBイメージ領域内のオブジェクトの識別にYOLOを使用している。
これらのコンポーネント間の相乗効果と3次元シーン理解への統合により、オブジェクトの検出とセグメンテーションの密接な融合が保証される。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the realm of computer vision, the integration of advanced techniques into
the processing of RGB-D camera inputs poses a significant challenge, given the
inherent complexities arising from diverse environmental conditions and varying
object appearances. Therefore, this paper introduces FusionVision, an
exhaustive pipeline adapted for the robust 3D segmentation of objects in RGB-D
imagery. Traditional computer vision systems face limitations in simultaneously
capturing precise object boundaries and achieving high-precision object
detection on depth map as they are mainly proposed for RGB cameras. To address
this challenge, FusionVision adopts an integrated approach by merging
state-of-the-art object detection techniques, with advanced instance
segmentation methods. The integration of these components enables a holistic
(unified analysis of information obtained from both color \textit{RGB} and
depth \textit{D} channels) interpretation of RGB-D data, facilitating the
extraction of comprehensive and accurate object information. The proposed
FusionVision pipeline employs YOLO for identifying objects within the RGB image
domain. Subsequently, FastSAM, an innovative semantic segmentation model, is
applied to delineate object boundaries, yielding refined segmentation masks.
The synergy between these components and their integration into 3D scene
understanding ensures a cohesive fusion of object detection and segmentation,
enhancing overall precision in 3D object segmentation. The code and pre-trained
models are publicly available at https://github.com/safouaneelg/FusionVision/.
- Abstract(参考訳): コンピュータビジョンの分野では、rgb-dカメラ入力の処理に高度な技術を統合することは、多様な環境条件と様々なオブジェクトの外観から生じる固有の複雑さを考えると、大きな課題となる。
そこで本研究では,RGB-D画像におけるオブジェクトのロバストな3次元セグメンテーションに適応した総括パイプラインFusionVisionを提案する。
従来のコンピュータビジョンシステムは、RGBカメラで主に提案されているように、精密な物体境界を同時に捉え、深度マップ上で高精度な物体検出を実現する際に制限に直面している。
この課題に対処するため、FusionVisionでは、最先端のオブジェクト検出技術を高度なインスタンスセグメンテーション手法と組み合わせた統合的なアプローチを採用している。
これらのコンポーネントの統合により、rgb-dデータの総合的な解釈(color \textit{rgb} と depth \textit{d} の両方から得られる情報の統一分析)が可能になり、包括的かつ正確なオブジェクト情報の抽出が容易になる。
提案したFusionVisionパイプラインでは、RGBイメージ領域内のオブジェクトの識別にYOLOを使用している。
続いて、革新的意味セグメンテーションモデルであるfastsamを用いてオブジェクト境界を記述し、洗練されたセグメンテーションマスクを生成する。
これらのコンポーネント間の相乗効果と3Dシーン理解への統合により、オブジェクト検出とセグメンテーションの結合が保証され、3Dオブジェクトセグメンテーションの全体的な精度が向上する。
コードと事前訓練されたモデルはhttps://github.com/safouaneelg/FusionVision/.comで公開されている。
関連論文リスト
- ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - Enhanced Automotive Object Detection via RGB-D Fusion in a DiffusionDet Framework [0.0]
視覚に基づく自律走行には、信頼性と効率的な物体検出が必要である。
本研究では、単眼カメラと深度センサからのデータ融合を利用してRGBと深度(RGB-D)データを提供するDiffusionDetベースのフレームワークを提案する。
RGB画像のテクスチャ特徴と色特徴とLiDARセンサの空間深度情報を統合することにより,自動車目標の物体検出を大幅に強化する特徴融合が提案されている。
論文 参考訳(メタデータ) (2024-06-05T10:24:00Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion [55.367269556557645]
EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。
オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
論文 参考訳(メタデータ) (2023-12-28T10:05:13Z) - FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision
Transformer Fusion [8.168523242105763]
本稿では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを紹介する。
我々のFusionViTモデルは最先端の性能を達成でき、既存のベースライン法より優れています。
論文 参考訳(メタデータ) (2023-11-07T00:12:01Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - ODAM: Object Detection, Association, and Mapping using Posed RGB Video [36.16010611723447]
ポーズ付きRGBビデオを用いた3次元物体検出・アソシエーション・マッピングシステムであるODAMについて述べる。
提案システムは,ディープラーニングのフロントエンドを用いて,与えられたRGBフレームから3Dオブジェクトを検出し,グラフニューラルネットワーク(GNN)を用いてグローバルなオブジェクトベースマップに関連付ける。
論文 参考訳(メタデータ) (2021-08-23T13:28:10Z) - A Multi-Level Approach to Waste Object Segmentation [10.20384144853726]
カラー画像とオプションの深度画像から廃棄物を局所化する問題に対処する。
本手法は,複数の空間的粒度レベルでの強度と深度情報を統合する。
我々は, この領域における今後の研究を促進するために, 新たなRGBD廃棄物分節MJU-Wasteを作成している。
論文 参考訳(メタデータ) (2020-07-08T16:49:25Z) - 3D Gated Recurrent Fusion for Semantic Scene Completion [32.86736222106503]
本稿では,セマンティック・シーン・コンプリート(SSC)タスクにおけるデータ融合の問題に取り組む。
本稿では,3次元ゲート型リカレント核融合ネットワーク(GRFNet)を提案する。
2つのベンチマークデータセットに対する実験は、SSCにおけるデータ融合のための提案されたGRFNetの優れた性能と有効性を示す。
論文 参考訳(メタデータ) (2020-02-17T21:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。