論文の概要: Uni3DETR: Unified 3D Detection Transformer
- arxiv url: http://arxiv.org/abs/2310.05699v1
- Date: Mon, 9 Oct 2023 13:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 04:51:20.864615
- Title: Uni3DETR: Unified 3D Detection Transformer
- Title(参考訳): Uni3DETR:Unified 3D Detection Transformer
- Authors: Zhenyu Wang, Yali Li, Xi Chen, Hengshuang Zhao, Shengjin Wang
- Abstract要約: 同一の枠組み内での屋内および屋外検出に対処する統合された3次元検出器を提案する。
具体的には,物体の予測に点-ボクセル相互作用を用いた検出変換器を用いる。
そこで我々は,密集した屋内シーンのグローバル情報と,大域の狭い屋外シーンのローカル情報とを十分に活用する問合せポイントの混合を提案する。
- 参考スコア(独自算出の注目度): 75.35012428550135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing point cloud based 3D detectors are designed for the particular
scene, either indoor or outdoor ones. Because of the substantial differences in
object distribution and point density within point clouds collected from
various environments, coupled with the intricate nature of 3D metrics, there is
still a lack of a unified network architecture that can accommodate diverse
scenes. In this paper, we propose Uni3DETR, a unified 3D detector that
addresses indoor and outdoor 3D detection within the same framework.
Specifically, we employ the detection transformer with point-voxel interaction
for object prediction, which leverages voxel features and points for
cross-attention and behaves resistant to the discrepancies from data. We then
propose the mixture of query points, which sufficiently exploits global
information for dense small-range indoor scenes and local information for
large-range sparse outdoor ones. Furthermore, our proposed decoupled IoU
provides an easy-to-optimize training target for localization by disentangling
the xy and z space. Extensive experiments validate that Uni3DETR exhibits
excellent performance consistently on both indoor and outdoor 3D detection. In
contrast to previous specialized detectors, which may perform well on some
particular datasets but suffer a substantial degradation on different scenes,
Uni3DETR demonstrates the strong generalization ability under heterogeneous
conditions (Fig. 1).
Codes are available at
\href{https://github.com/zhenyuw16/Uni3DETR}{https://github.com/zhenyuw16/Uni3DETR}.
- Abstract(参考訳): 既存のポイントクラウドベースの3d検出器は、屋内または屋外のシーン用に設計されている。
様々な環境から収集された点雲内の物体分布と点密度の実質的な違いと、3dメトリクスの複雑な性質から、多様なシーンに対応可能な統一ネットワークアーキテクチャが依然として欠如している。
本稿では,屋内および屋外の3d検出を同一フレームワーク内で処理する統一3d検出器uni3detrを提案する。
具体的には,voxelの特徴と点をクロス・アテンションとして活用し,データとの差異に耐性を持つ検出トランスフォーマティブを用いて物体予測を行う。
そこで我々は,密集した屋内シーンのグローバル情報と,大域の狭い屋外シーンのローカル情報を十分に活用する問合せポイントの混合を提案する。
さらに,提案した疎結合IoUは,xy と z 空間をアンタングルすることで,局所化を最適化する訓練ターゲットを提供する。
大規模な実験により、Uni3DETRは屋内および屋外の両方で優れた性能を示すことが確認された。
特定のデータセットでうまく機能するが、異なる場面で著しく劣化する以前の特殊検出器とは対照的に、Uni3DETRは異種条件下での強い一般化能力を示す(第1図)。
コードは \href{https://github.com/zhenyuw16/Uni3DETR}{https://github.com/zhenyuw16/Uni3DETR} で公開されている。
関連論文リスト
- OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object
Detection [59.765645791588454]
最近導入されたRTS3Dは、深度監督のないオブジェクトの中間表現のための効率的な4次元特徴整合埋め込み空間を構築している。
本研究では, 内部領域で高密度サンプリングを行い, 内部領域でスパースサンプリングを行う非一様サンプリング方式を提案する。
提案手法は,ネットワークパラメータをほとんど含まないAP3dに対して2.57%の改善を実現している。
論文 参考訳(メタデータ) (2021-06-18T09:14:55Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。