論文の概要: X-view: Non-egocentric Multi-View 3D Object Detector
- arxiv url: http://arxiv.org/abs/2103.13001v1
- Date: Wed, 24 Mar 2021 06:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:00:56.410582
- Title: X-view: Non-egocentric Multi-View 3D Object Detector
- Title(参考訳): Xビュー:非エゴセントリックなマルチビュー3Dオブジェクト検出器
- Authors: Liang Xie, Guodong Xu, Deng Cai, Xiaofei He
- Abstract要約: 本稿では,マルチビュー方式の欠点を克服するために,X-viewという新しいマルチビュー3D検出手法を提案する。
x-ビューは、元の点が3次元デカルト座標と一致しなければならない遠近観に関する従来の制限を突破する。
KITTIおよびNuScenesデータセットの実験を行い、提案されたX-viewの堅牢性と有効性を実証します。
- 参考スコア(独自算出の注目度): 40.25127812839952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection algorithms for autonomous driving reason about 3D
obstacles either from 3D birds-eye view or perspective view or both. Recent
works attempt to improve the detection performance via mining and fusing from
multiple egocentric views. Although the egocentric perspective view alleviates
some weaknesses of the birds-eye view, the sectored grid partition becomes so
coarse in the distance that the targets and surrounding context mix together,
which makes the features less discriminative. In this paper, we generalize the
research on 3D multi-view learning and propose a novel multi-view-based 3D
detection method, named X-view, to overcome the drawbacks of the multi-view
methods. Specifically, X-view breaks through the traditional limitation about
the perspective view whose original point must be consistent with the 3D
Cartesian coordinate. X-view is designed as a general paradigm that can be
applied on almost any 3D detectors based on LiDAR with only little increment of
running time, no matter it is voxel/grid-based or raw-point-based. We conduct
experiments on KITTI and NuScenes datasets to demonstrate the robustness and
effectiveness of our proposed X-view. The results show that X-view obtains
consistent improvements when combined with four mainstream state-of-the-art 3D
methods: SECOND, PointRCNN, Part-A^2, and PV-RCNN.
- Abstract(参考訳): 自律運転のための3D物体検出アルゴリズムは、3D鳥眼ビューか視点ビューか両方から3D障害物を判断する。
最近の研究は、複数のエゴセントリックビューからのマイニングとfusingによる検出性能の向上を試みている。
エゴセントリック・パースペクティブ・ビューは鳥眼ビューの弱点を緩和するが、セクター化されたグリッド・パーティションは距離が粗くなり、ターゲットと周囲のコンテキストが混在し、特徴を識別しにくくする。
本稿では,3次元マルチビュー学習の研究を一般化し,マルチビュー手法の欠点を克服するために,x-viewと呼ばれる新しいマルチビューベース3次元検出手法を提案する。
具体的には、x-ビューは、元の点が3次元デカルト座標と一致するはずのパースペクティブビューに関する従来の制限を破る。
X-viewは、Voxel/gridベースや生点ベースであっても、ランニングタイムの少ないLiDARに基づくほぼすべての3D検出器に適用可能な一般的なパラダイムとして設計されている。
我々は,KITTIおよびNuScenesデータセットを用いて,提案したX-viewの堅牢性と有効性を示す実験を行った。
その結果、X-viewは、SECOND、PointRCNN、Part-A^2、PV-RCNNの4つの主流3D手法と組み合わせて一貫した改善が得られた。
関連論文リスト
- SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - XVTP3D: Cross-view Trajectory Prediction Using Shared 3D Queries for
Autonomous Driving [7.616422495497465]
不確実性を伴う軌道予測は、自動運転にとって重要かつ困難な課題である。
共有3Dクエリ(XVTP3D)を用いたクロスビュー軌道予測手法を提案する。
2つの公開データセットに対する実験の結果、XVTP3Dは、一貫したクロスビュー予測で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-17T03:35:13Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Scatter Points in Space: 3D Detection from Multi-view Monocular Images [8.71944437852952]
単眼画像からの3次元物体検出は,コンピュータビジョンの課題であり,長年の課題である。
近年の手法では, 空間に密集した正規3次元格子をサンプリングすることにより, マルチビュー特性を集約する傾向にある。
そこで本研究では,データ空間に擬似曲面点を散布し,データの分散性を維持するための学習可能なキーポイントサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-08-31T09:38:05Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - CVFNet: Real-time 3D Object Detection by Learning Cross View Features [11.402076835949824]
CVFNetと呼ばれるリアルタイムビューベースの1段3Dオブジェクト検出器を提案する。
本稿ではまず,複数の段階において,ポイント・アンド・レンジ・ビュー機能を深く統合した新しいポイント・ラウンジ機能融合モジュールを提案する。
次に, 得られた深度視点特徴を鳥の目視に変換する際に, 3次元形状を良好に維持する特別のスライスピラーを設計する。
論文 参考訳(メタデータ) (2022-03-13T06:23:18Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。