論文の概要: 3M3D: Multi-view, Multi-path, Multi-representation for 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2302.08231v3
- Date: Fri, 28 Jul 2023 10:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 16:22:25.319377
- Title: 3M3D: Multi-view, Multi-path, Multi-representation for 3D Object
Detection
- Title(参考訳): 3M3D:3次元物体検出のためのマルチビュー・マルチパス・マルチ表現
- Authors: Jongwoo Park, Apoorv Singh, Varun Bankiti
- Abstract要約: 本稿では,3次元物体検出のためのマルチビュー,マルチパス,マルチ表現3M3Dを提案する。
我々は、パノラマビューと粗いグローバルビューの両方において、シーンの表現を強化するために、マルチビュー機能とクエリ機能の両方を更新する。
ベースライン上でnuScenesベンチマークデータセットのパフォーマンス改善を示す。
- 参考スコア(独自算出の注目度): 0.5156484100374059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual perception tasks based on multi-camera images are essential for
autonomous driving systems. Latest work in this field performs 3D object
detection by leveraging multi-view images as an input and iteratively enhancing
object queries (object proposals) by cross-attending multi-view features.
However, individual backbone features are not updated with multi-view features
and it stays as a mere collection of the output of the single-image backbone
network. Therefore we propose 3M3D: A Multi-view, Multi-path,
Multi-representation for 3D Object Detection where we update both multi-view
features and query features to enhance the representation of the scene in both
fine panoramic view and coarse global view. Firstly, we update multi-view
features by multi-view axis self-attention. It will incorporate panoramic
information in the multi-view features and enhance understanding of the global
scene. Secondly, we update multi-view features by self-attention of the ROI
(Region of Interest) windows which encodes local finer details in the features.
It will help exchange the information not only along the multi-view axis but
also along the other spatial dimension. Lastly, we leverage the fact of
multi-representation of queries in different domains to further boost the
performance. Here we use sparse floating queries along with dense BEV (Bird's
Eye View) queries, which are later post-processed to filter duplicate
detections. Moreover, we show performance improvements on nuScenes benchmark
dataset on top of our baselines.
- Abstract(参考訳): マルチカメラ画像に基づく3次元視覚認識タスクは、自律運転システムに不可欠である。
この分野での最近の研究は、マルチビューイメージを入力として活用し、オブジェクトクエリ(オブジェクト提案)を横断的なマルチビュー機能によって反復的に拡張することで、3Dオブジェクト検出を行う。
しかし、個々のバックボーン機能はマルチビュー機能では更新されず、単一のイメージバックボーンネットワークの出力の単なるコレクションとして残る。
そこで我々は3M3Dを提案する。 マルチビュー, マルチパス, 3次元オブジェクト検出のためのマルチビュー, マルチビュー, クエリ機能の両方を更新し, パノラマビューと粗いグローバルビューの両方においてシーンの表現を強化する。
まず,マルチビュー軸の自己アテンションにより,マルチビュー機能を更新する。
マルチビュー機能にパノラマ情報を導入し、グローバルなシーンの理解を深める。
第2に,機能内の局所的な詳細をエンコードするroi (region of interest) ウィンドウの自己対応により,マルチビュー機能を更新した。
これは多視点軸に沿ってだけでなく、他の空間次元に沿って情報を交換するのに役立ちます。
最後に、異なるドメインにおけるクエリの多重表現の事実を活用して、パフォーマンスをさらに向上する。
ここでは分散したフローティングクエリと密集したbev(bird's eye view)クエリを使い、後に重複検出をフィルタリングするために後処理します。
さらに,ベースライン上でのnuScenesベンチマークデータセットのパフォーマンス向上を示す。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in
Large Scenes [50.744452135300115]
マルチビュー・クラウドカウントのためのディープニューラルネットワークフレームワークを提案する。
提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-12-02T03:20:30Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。