論文の概要: MV-FCOS3D++: Multi-View Camera-Only 4D Object Detection with Pretrained
Monocular Backbones
- arxiv url: http://arxiv.org/abs/2207.12716v1
- Date: Tue, 26 Jul 2022 08:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 13:18:05.723498
- Title: MV-FCOS3D++: Multi-View Camera-Only 4D Object Detection with Pretrained
Monocular Backbones
- Title(参考訳): MV-FCOS3D++:事前学習した単眼背骨を用いたカメラ専用4次元物体検出
- Authors: Tai Wang, Qing Lian, Chenming Zhu, Xinge Zhu, Wenwei Zhang
- Abstract要約: オープンデータセットチャレンジ2022におけるカメラオンリー3D検出トラックに対して,MV-FCOS3D++と呼ばれるソリューションを提案する。
単純な単分子検出器FCOS3D++上に構築され、オブジェクトアノテーションのみで事前訓練され、マルチビュー機能を3Dグリッド空間に変換して3Dオブジェクトを検出する。
- 参考スコア(独自算出の注目度): 13.722248250482924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this technical report, we present our solution, dubbed MV-FCOS3D++, for
the Camera-Only 3D Detection track in Waymo Open Dataset Challenge 2022. For
multi-view camera-only 3D detection, methods based on bird-eye-view or 3D
geometric representations can leverage the stereo cues from overlapped regions
between adjacent views and directly perform 3D detection without hand-crafted
post-processing. However, it lacks direct semantic supervision for 2D
backbones, which can be complemented by pretraining simple monocular-based
detectors. Our solution is a multi-view framework for 4D detection following
this paradigm. It is built upon a simple monocular detector FCOS3D++,
pretrained only with object annotations of Waymo, and converts multi-view
features to a 3D grid space to detect 3D objects thereon. A dual-path neck for
single-frame understanding and temporal stereo matching is devised to
incorporate multi-frame information. Our method finally achieves 49.75% mAPL
with a single model and wins 2nd place in the WOD challenge, without any
LiDAR-based depth supervision during training. The code will be released at
https://github.com/Tai-Wang/Depth-from-Motion.
- Abstract(参考訳): 本稿では,Waymo Open Dataset Challenge 2022におけるカメラオンリー3D検出トラックに対するMV-FCOS3D++というソリューションを提案する。
多視点カメラのみの3d検出では、バードアイビューまたは3d幾何表現に基づく手法は、隣接するビュー間の重なり合う領域からのステレオキューを活用でき、手作り後処理なしで直接3d検出を行うことができる。
しかし、2Dバックボーンの直接的な意味的監督は欠如しており、単純な単分子検出器を事前訓練することで補うことができる。
私たちのソリューションは、このパラダイムに従う4D検出のためのマルチビューフレームワークです。
単純な単分子検出器FCOS3D++上に構築されており、Waymoのオブジェクトアノテーションのみを事前訓練し、マルチビュー機能を3Dグリッド空間に変換して3Dオブジェクトを検出する。
シングルフレーム理解と時間的ステレオマッチングのためのデュアルパスネックを多フレーム情報を組み込むために考案した。
本手法は最終的に1つのモデルで49.75% mAPLを達成し,トレーニング中にLiDARによる深度監視を行なわず,WODチャレンジで2位を獲得した。
コードはhttps://github.com/Tai-Wang/Depth-from-Motion.comで公開される。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras [3.648972014796591]
ビュービュー内の2Dオブジェクトと、複数のカメラからBEV空間内の3Dオブジェクトを同時に検出するSimPBと呼ばれる単一のモデルを提案する。
ハイブリッドデコーダは複数のマルチビュー2Dデコーダ層と複数の3Dデコーダ層で構成され、それぞれの検出タスク用に特別に設計されている。
論文 参考訳(メタデータ) (2024-03-15T14:39:39Z) - MonoNext: A 3D Monocular Object Detection with ConvNext [69.33657875725747]
本稿では3次元物体検出のためのMonoNextと呼ばれる新しいマルチタスク学習手法を提案する。
MonoNextは、ConvNextネットワークに基づく直接的なアプローチを採用し、3Dバウンディングボックスデータのみを必要とする。
KITTIデータセットを用いた実験では,MonoNextは最先端のアプローチに匹敵する高精度かつ競争的な性能を達成した。
論文 参考訳(メタデータ) (2023-08-01T15:15:40Z) - SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection [0.0]
Pseudo-Stereoに基づくモノクル3D検出のためのフレームワークが最近提案され、コミュニティで注目されている。
本研究では,単一視点拡散モデルを導入することで,エンドツーエンドで効率的な擬似ステレオ3D検出フレームワークを提案する。
SVDMは擬似ステレオ3D検出パイプライン全体をエンドツーエンドで訓練することができ、ステレオ検出器の訓練の恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-07-05T13:10:37Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。
LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-03-17T03:43:54Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。