論文の概要: V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2308.04409v1
- Date: Tue, 8 Aug 2023 17:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 11:58:07.516420
- Title: V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection
- Title(参考訳): 3次元物体検出のための頂点相対位置符号化V-DETR:DETR
- Authors: Yichao Shen, Zigang Geng, Yuhui Yuan, Yutong Lin, Ze Liu, Chunyu Wang,
Han Hu, Nanning Zheng, Baining Guo
- Abstract要約: DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
- 参考スコア(独自算出の注目度): 73.37781484123536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a highly performant 3D object detector for point clouds using
the DETR framework. The prior attempts all end up with suboptimal results
because they fail to learn accurate inductive biases from the limited scale of
training data. In particular, the queries often attend to points that are far
away from the target objects, violating the locality principle in object
detection. To address the limitation, we introduce a novel 3D Vertex Relative
Position Encoding (3DV-RPE) method which computes position encoding for each
point based on its relative position to the 3D boxes predicted by the queries
in each decoder layer, thus providing clear information to guide the model to
focus on points near the objects, in accordance with the principle of locality.
In addition, we systematically improve the pipeline from various aspects such
as data normalization based on our understanding of the task. We show
exceptional results on the challenging ScanNetV2 benchmark, achieving
significant improvements over the previous 3DETR in
$\rm{AP}_{25}$/$\rm{AP}_{50}$ from 65.0\%/47.0\% to 77.8\%/66.0\%,
respectively. In addition, our method sets a new record on ScanNetV2 and SUN
RGB-D datasets.Code will be released at http://github.com/yichaoshen-MS/V-DETR.
- Abstract(参考訳): DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
事前の試みは、訓練データの限られた規模から正確な帰納バイアスを学習できないため、すべて最適以下の結果に終わる。
特に、クエリは、ターゲットオブジェクトから遠く離れた点にしばしば参加し、オブジェクト検出の局所性原理に違反します。
この制限に対処するために,各デコーダ層におけるクエリによって予測される3Dボックスに対する相対的な位置に基づいて各点の位置エンコーディングを計算し,局所性の原則に従ってモデルがオブジェクト近傍の点に焦点を合わせるための明確な情報を提供する,新しい3D Vertex Relative Position Encoding (3DV-RPE)手法を提案する。
さらに,タスクの理解に基づくデータの正規化など,さまざまな側面からパイプラインを体系的に改善する。
難解なscannetv2ベンチマークでは、それぞれ65.0\%/47.0\%から77.8\%/66.0\%までの$\rm{ap}_{25}$/$\rm{ap}_{50}$で以前の3detrを大きく改善した。
さらに、ScanNetV2 と SUN RGB-D データセットに新しいレコードをセットし、http://github.com/yichaoshen-MS/V-DETR でコードをリリースする。
関連論文リスト
- MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps [51.44887282336391]
多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:58:41Z) - Point-DETR3D: Leveraging Imagery Data with Spatial Point Prior for Weakly Semi-supervised 3D Object Detection [32.86369670395974]
本稿では,弱半教師付き3D検出のための教師支援フレームワークであるPoint-DETR3Dを紹介する。
ラベル付きデータの5%しか持たないPoint-DETR3Dは、完全な教師付きデータのパフォーマンスを90%以上達成している。
論文 参考訳(メタデータ) (2024-03-22T16:11:29Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Anytime-Lidar: Deadline-aware 3D Object Detection [5.491655566898372]
スケジューリングアルゴリズムを提案する。このアルゴリズムは,コンポーネントのサブセットをインテリジェントに選択し,有効時間と高精度のトレードオフをオンザフライで行う。
我々は,最先端の3Dオブジェクト検出ネットワークであるPointPillarsにアプローチを適用し,Jetson Xavier AGXデータセットの性能評価を行った。
論文 参考訳(メタデータ) (2022-08-25T16:07:10Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - 3D Object Detection Combining Semantic and Geometric Features from Point
Clouds [19.127930862527666]
そこで本研究では,SGNetと呼ばれる2次元物体検出装置を提案する。
VTPMはVoxel-Point-Based Moduleであり、最終的に点空間で3Dオブジェクト検出を実装している。
2021年9月19日時点で、KITTIデータセットでは、SGNetは、難易度の高いサイクリストの3DおよびBEV検出で1位、適度なサイクリストの3D検出では2位であった。
論文 参考訳(メタデータ) (2021-10-10T04:43:27Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。