論文の概要: CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2209.06641v1
- Date: Tue, 13 Sep 2022 05:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:39:01.913596
- Title: CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection
- Title(参考訳): CMR3D:3次元物体検出のためのコンテキスト型マルチステージリファインメント
- Authors: Dhanalaxmi Gaddam, Jean Lahoud, Fahad Shahbaz Khan, Rao Muhammad
Anwer, Hisham Cholakkal
- Abstract要約: 本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
- 参考スコア(独自算出の注目度): 57.44434974289945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing deep learning-based 3D object detectors typically rely on the
appearance of individual objects and do not explicitly pay attention to the
rich contextual information of the scene. In this work, we propose
Contextualized Multi-Stage Refinement for 3D Object Detection (CMR3D)
framework, which takes a 3D scene as input and strives to explicitly integrate
useful contextual information of the scene at multiple levels to predict a set
of object bounding-boxes along with their corresponding semantic labels. To
this end, we propose to utilize a context enhancement network that captures the
contextual information at different levels of granularity followed by a
multi-stage refinement module to progressively refine the box positions and
class predictions. Extensive experiments on the large-scale ScanNetV2 benchmark
reveal the benefits of our proposed method, leading to an absolute improvement
of 2.0% over the baseline. In addition to 3D object detection, we investigate
the effectiveness of our CMR3D framework for the problem of 3D object counting.
Our source code will be publicly released.
- Abstract(参考訳): 既存のディープラーニングベースの3Dオブジェクト検出器は通常、個々のオブジェクトの外観に依存しており、シーンのリッチなコンテキスト情報に明示的に注意を払わない。
本研究では、3dシーンを入力として、複数のレベルにおけるシーンの有用なコンテキスト情報を明示的に統合し、対応する意味ラベルと共にオブジェクトバウンディングボックスのセットを予測する3dオブジェクト検出(cmr3d)フレームワークのためのコンテキスト化多段階リファインメントを提案する。
そこで本研究では,ボックス位置とクラス予測を段階的に洗練する多段階改良モジュールを用いて,異なるレベルの粒度でコンテキスト情報をキャプチャするコンテキスト拡張ネットワークを提案する。
大規模ScanNetV2ベンチマークの大規模な実験により,提案手法の利点が明らかとなり,ベースラインよりも2.0%向上した。
3Dオブジェクトの検出に加えて,CMR3Dフレームワークの3Dオブジェクトカウント問題に対する有効性を検討した。
ソースコードは公開される予定だ。
関連論文リスト
- MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Multi-View Attentive Contextualization for Multi-View 3D Object Detection [19.874148893464607]
MvACon(Multi-View Attentive Contextualization)は,クエリベース3D(MV3D)オブジェクト検出における2D-to-3D機能向上のための,シンプルかつ効果的な手法である。
実験では、提案されたMvAConは、BEVFormerと最近の3Dデフォルマブルアテンション(DFA3D)とPETRの両方を用いて、nuScenesベンチマークで徹底的にテストされている。
論文 参考訳(メタデータ) (2024-05-20T17:37:10Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - Surface-biased Multi-Level Context 3D Object Detection [1.9723551683930771]
本研究は,高効率表面偏光特性抽出法(wang2022rbgnet)を用いて3次元点雲中の物体検出タスクに対処する。
本稿では,オブジェクト候補の正確な特徴表現を抽出し,点パッチやオブジェクト候補,グローバルシーンにおける自己注意を活用する3Dオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-02-13T11:50:04Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - HyperDet3D: Learning a Scene-conditioned 3D Object Detector [154.84798451437032]
本研究では3次元物体検出のためのシーン条件付き事前知識を探索するためにHyperDet3Dを提案する。
我々のHyperDet3Dは、ScanNetとSUN RGB-Dデータセットの3Dオブジェクト検出ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-12T07:57:58Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。
実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文 参考訳(メタデータ) (2020-12-22T22:49:15Z) - Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。
既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。
基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文 参考訳(メタデータ) (2020-07-28T03:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。