論文の概要: Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2204.11582v2
- Date: Tue, 26 Apr 2022 09:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 10:45:01.806693
- Title: Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object
Detection
- Title(参考訳): Graph-DETR3D:マルチビュー3Dオブジェクト検出のための重複領域の再考
- Authors: Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang,
Feng Zhao
- Abstract要約: グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で49.5 NDSを達成し、様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。
- 参考スコア(独自算出の注目度): 17.526914782562528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D object detection from multiple image views is a fundamental and
challenging task for visual scene understanding. Due to its low cost and high
efficiency, multi-view 3D object detection has demonstrated promising
application prospects. However, accurately detecting objects through
perspective views in the 3D space is extremely difficult due to the lack of
depth information. Recently, DETR3D introduces a novel 3D-2D query paradigm in
aggregating multi-view images for 3D object detection and achieves
state-of-the-art performance. In this paper, with intensive pilot experiments,
we quantify the objects located at different regions and find that the
"truncated instances" (i.e., at the border regions of each image) are the main
bottleneck hindering the performance of DETR3D. Although it merges multiple
features from two adjacent views in the overlapping regions, DETR3D still
suffers from insufficient feature aggregation, thus missing the chance to fully
boost the detection performance. In an effort to tackle the problem, we propose
Graph-DETR3D to automatically aggregate multi-view imagery information through
graph structure learning (GSL). It constructs a dynamic 3D graph between each
object query and 2D feature maps to enhance the object representations,
especially at the border regions. Besides, Graph-DETR3D benefits from a novel
depth-invariant multi-scale training strategy, which maintains the visual depth
consistency by simultaneously scaling the image size and the object depth.
Extensive experiments on the nuScenes dataset demonstrate the effectiveness and
efficiency of our Graph-DETR3D. Notably, our best model achieves 49.5 NDS on
the nuScenes test leaderboard, achieving new state-of-the-art in comparison
with various published image-view 3D object detectors.
- Abstract(参考訳): 複数の画像ビューから3Dオブジェクトを検出することは、視覚的シーン理解の基本的な課題である。
低コストかつ高効率であるため、マルチビュー3dオブジェクト検出は有望な応用可能性を示している。
しかし,3次元空間における視点視による物体の正確な検出は,深度情報の欠如により極めて困難である。
近年,DETR3Dは3次元オブジェクト検出のための多視点画像を集約する新しい3D-2Dクエリパラダイムを導入し,最先端の性能を実現する。
本稿では,集中的なパイロット実験を行い,異なる領域にある物体を定量化し,各画像の境界領域における「侵入インスタンス」がdetr3dの性能を阻害する主なボトルネックであることを示す。
重複する領域の2つの隣接するビューから複数の特徴をマージするが、DETR3Dは依然として機能集約が不十分であり、検出性能を完全に向上する機会を欠いている。
そこで本稿では,グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。
各オブジェクトクエリと2d特徴マップの間の動的3dグラフを構築し、特に境界領域におけるオブジェクト表現を強化する。
さらに、Graph-DETR3Dは、画像サイズとオブジェクト深度を同時にスケーリングすることで視覚深度一貫性を維持する、新しい深度不変のマルチスケールトレーニング戦略の恩恵を受ける。
nuScenesデータセットに関する大規模な実験は、Graph-DETR3Dの有効性と効率を実証している。
特に,我々の最良のモデルでは,nuScenesテストリーダボード上で49.5 NDSを達成し,様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Scatter Points in Space: 3D Detection from Multi-view Monocular Images [8.71944437852952]
単眼画像からの3次元物体検出は,コンピュータビジョンの課題であり,長年の課題である。
近年の手法では, 空間に密集した正規3次元格子をサンプリングすることにより, マルチビュー特性を集約する傾向にある。
そこで本研究では,データ空間に擬似曲面点を散布し,データの分散性を維持するための学習可能なキーポイントサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-08-31T09:38:05Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving [14.582107328849473]
ステレオビューにおける画像-画像生成のギャップは、画像-画像-LiDAR生成のギャップよりもはるかに小さい。
そこで我々はPseudo-Stereo 3D検出フレームワークを3つの新しい仮想ビュー生成手法で提案する。
我々のフレームワークは、KITTI-3Dベンチマークで公表されたモノクラー3D検出器の中で、車、歩行者、サイクリストで1位にランクインしている。
論文 参考訳(メタデータ) (2022-03-04T03:00:34Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。