論文の概要: Scatter Points in Space: 3D Detection from Multi-view Monocular Images
- arxiv url: http://arxiv.org/abs/2208.14738v1
- Date: Wed, 31 Aug 2022 09:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:25:45.311492
- Title: Scatter Points in Space: 3D Detection from Multi-view Monocular Images
- Title(参考訳): 空間における散乱点:多視点単眼画像からの3次元検出
- Authors: Jianlin Liu, Zhuofei Huang, Dihe Huang, Shang Xu, Ying Chen, and Yong
Liu
- Abstract要約: 単眼画像からの3次元物体検出は,コンピュータビジョンの課題であり,長年の課題である。
近年の手法では, 空間に密集した正規3次元格子をサンプリングすることにより, マルチビュー特性を集約する傾向にある。
そこで本研究では,データ空間に擬似曲面点を散布し,データの分散性を維持するための学習可能なキーポイントサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 8.71944437852952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection from monocular image(s) is a challenging and
long-standing problem of computer vision. To combine information from different
perspectives without troublesome 2D instance tracking, recent methods tend to
aggregate multiview feature by sampling regular 3D grid densely in space, which
is inefficient. In this paper, we attempt to improve multi-view feature
aggregation by proposing a learnable keypoints sampling method, which scatters
pseudo surface points in 3D space, in order to keep data sparsity. The
scattered points augmented by multi-view geometric constraints and visual
features are then employed to infer objects location and shape in the scene. To
make up the limitations of single frame and model multi-view geometry
explicitly, we further propose a surface filter module for noise suppression.
Experimental results show that our method achieves significantly better
performance than previous works in terms of 3D detection (more than 0.1 AP
improvement on some categories of ScanNet). The code will be publicly
available.
- Abstract(参考訳): 単眼画像からの3次元物体検出は,コンピュータビジョンの課題であり,長年の課題である。
様々な視点からの情報を組み合わせるために,近年の手法では,空間に密集した通常の3Dグリッドをサンプリングすることで,多面的特徴を集約する傾向にある。
本稿では,3次元空間で擬似表面点を散乱する学習可能なキーポイントサンプリング手法を提案することにより,データのスパーシティを保ちながら,多視点特徴の集約性を向上させることを試みる。
多視点の幾何学的制約と視覚的特徴によって拡張された散乱点を用いて、シーン内の物体の位置と形状を推測する。
単一フレームとモデル多視点形状の制約を明示的に補うために,さらにノイズ抑圧のためのサーフェスフィルタモジュールを提案する。
実験の結果,従来の3次元検出法に比べ,精度は有意に向上した(scannetのカテゴリによっては0.1 ap以上の改善が見られた)。
コードは公開される予定だ。
関連論文リスト
- 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal
Fusion [14.15155927539293]
Sparse4Dは,空間的時間的特徴をスパースサンプリングし,融合させることにより,アンカーボックスの繰り返し改良を行う。
実験では, nuScenesデータセットにおける検出タスクにおいて, スパース法およびほとんどのBEV法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-19T04:20:57Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Exploiting More Information in Sparse Point Cloud for 3D Single Object
Tracking [9.693724357115762]
3Dオブジェクトトラッキングは、3Dコンピュータビジョンにおける重要なタスクである。
点雲の空間性は、類似性を計算し、対象を見つけるのを難しくする。
本稿では3次元オブジェクト追跡のためのスパース・トゥ・デンス・トランスフォーマー・ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-02T13:38:30Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object
Detection [17.526914782562528]
グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で49.5 NDSを達成し、様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2022-04-25T12:10:34Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。