論文の概要: UniDet3D: Multi-dataset Indoor 3D Object Detection
- arxiv url: http://arxiv.org/abs/2409.04234v1
- Date: Fri, 6 Sep 2024 12:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:55:18.156812
- Title: UniDet3D: Multi-dataset Indoor 3D Object Detection
- Title(参考訳): UniDet3D:マルチデータセット屋内3Dオブジェクト検出
- Authors: Maksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin,
- Abstract要約: 簡単な3Dオブジェクト検出モデルです
屋内データセットの混合で訓練され、様々な屋内環境で働くことができる。
- 参考スコア(独自算出の注目度): 4.718582862677851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Growing customer demand for smart solutions in robotics and augmented reality has attracted considerable attention to 3D object detection from point clouds. Yet, existing indoor datasets taken individually are too small and insufficiently diverse to train a powerful and general 3D object detection model. In the meantime, more general approaches utilizing foundation models are still inferior in quality to those based on supervised training for a specific task. In this work, we propose \ours{}, a simple yet effective 3D object detection model, which is trained on a mixture of indoor datasets and is capable of working in various indoor environments. By unifying different label spaces, \ours{} enables learning a strong representation across multiple datasets through a supervised joint training scheme. The proposed network architecture is built upon a vanilla transformer encoder, making it easy to run, customize and extend the prediction pipeline for practical use. Extensive experiments demonstrate that \ours{} obtains significant gains over existing 3D object detection methods in 6 indoor benchmarks: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50), and ScanNet++ (+2.7 mAP50). Code is available at https://github.com/filapro/unidet3d .
- Abstract(参考訳): ロボット工学や拡張現実におけるスマートソリューションに対する顧客の需要は、ポイントクラウドから3Dオブジェクトを検出することにかなりの関心を集めている。
しかし、既存の屋内データセットは、強力で一般的な3Dオブジェクト検出モデルを訓練するには小さすぎるし、多様ではない。
一方、基礎モデルを用いたより一般的なアプローチは、特定のタスクに対する教師付きトレーニングに基づくものよりも品質が劣っている。
本研究では,屋内データセットの混合に基づいて学習し,様々な室内環境下での作業が可能な,シンプルで効果的な3次元物体検出モデルである \ours{} を提案する。
異なるラベル空間を統一することにより、教師付きジョイントトレーニングスキームを通じて複数のデータセットにまたがる強力な表現を学習することができる。
提案するネットワークアーキテクチャは,バニラトランスフォーマーエンコーダ上に構築されており,予測パイプラインの実行,カスタマイズ,拡張が容易である。
ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50), ScanNet++ (+2.7 mAP50) である。
コードはhttps://github.com/filapro/unidet3dで入手できる。
関連論文リスト
- Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - M&M3D: Multi-Dataset Training and Efficient Network for Multi-view 3D
Object Detection [2.5158048364984564]
カメラのみのデータとBird's-Eye-View Mapを用いたマルチビュー3Dオブジェクト検出のためのネットワーク構造を提案した。
私の仕事は、現在の重要なドメイン適応とビジュアルデータ転送に基づいています。
本研究は,3次元情報を利用可能な意味情報として利用し,視覚的言語伝達設計にブレンドした2次元多視点画像特徴について述べる。
論文 参考訳(メタデータ) (2023-11-02T04:28:51Z) - Towards Robust Robot 3D Perception in Urban Environments: The UT Campus
Object Dataset [7.665779592030094]
CODaはテキサス大学オースティン校地で収集された移動ロボットの自我中心の知覚データセットである。
私たちのデータセットには8.5時間のマルチモーダルセンサーデータが含まれています。同期3Dポイントクラウドと128チャンネルのLiDARからのステレオRGBビデオと10fpsの1.25MPのRGBカメラです。
我々は,53のセマンティッククラスに対するインスタンスID,5000の3Dセマンティックアノテーションを含む1.3百万個の3Dバウンディングボックスを含む58分間の地中トルースアノテーションを提供する。
論文 参考訳(メタデータ) (2023-09-24T04:43:39Z) - FocalFormer3D : Focusing on Hard Instance for 3D Object Detection [97.56185033488168]
3次元物体検出における偽陰性(False negatives, FN)は、自動運転において潜在的に危険な状況を引き起こす可能性がある。
本研究では,マルチステージ方式でtextitFN を識別する汎用パイプラインである Hard Instance Probing (HIP) を提案する。
この手法をFocalFormer3Dとしてインスタンス化する。
論文 参考訳(メタデータ) (2023-08-08T20:06:12Z) - Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene
Understanding [40.68012530554327]
室内3Dシーン理解のための3DバックボーンであるSSTを導入する。
我々は,線形メモリの複雑さを伴うスパースボクセルの自己アテンションを効率的に行える3Dスウィントランスを,バックボーンネットワークとして設計する。
我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。
論文 参考訳(メタデータ) (2023-04-14T02:49:08Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection [3.330229314824913]
FCAF3D - 完全畳み込み型アンカーフリー屋内3D物体検出法を提案する。
これは、点雲のボクセル表現を使用し、スパース畳み込みでボクセルを処理する、単純で効果的な方法である。
単一の完全な畳み込みフィードフォワードパスを通じて、最小限のランタイムで大規模シーンを処理できる。
論文 参考訳(メタデータ) (2021-12-01T07:28:52Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - Weakly Supervised 3D Object Detection from Lidar Point Cloud [182.67704224113862]
高品質な3Dオブジェクト検出器をトレーニングするために、ポイントクラウドデータに手動でラベルをつけるのはむずかしい。
本研究は、3次元物体検出のための弱教師付きアプローチを提案する。
提案手法は,500の弱い注釈付きシーンと534の正確なラベル付き車両インスタンスを用いて,現在のトップリード型全監視検出器の性能を85~95%向上させる。
論文 参考訳(メタデータ) (2020-07-23T10:12:46Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。