論文の概要: DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors
- arxiv url: http://arxiv.org/abs/2204.03039v1
- Date: Wed, 6 Apr 2022 18:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:35:22.620898
- Title: DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors
- Title(参考訳): DSGN++:Stereoベースの3D検出器のための視覚空間関係の爆発
- Authors: Yilun Chen, Shijia Huang, Shu Liu, Bei Yu, Jiaya Jia
- Abstract要約: カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
- 参考スコア(独自算出の注目度): 60.88824519770208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-based 3D object detectors are welcome due to their wider deployment
and lower price than LiDAR sensors. We revisit the prior stereo modeling DSGN
about the stereo volume constructions for representing both 3D geometry and
semantics. We polish the stereo modeling and propose our approach, DSGN++,
aiming for improving information flow throughout the 2D-to-3D pipeline in the
following three main aspects. First, to effectively lift the 2D information to
stereo volume, we propose depth-wise plane sweeping (DPS) that allows denser
connections and extracts depth-guided features. Second, for better grasping
differently spaced features, we present a novel stereo volume -- Dual-view
Stereo Volume (DSV) that integrates front-view and top-view features and
reconstructs sub-voxel depth in the camera frustum. Third, as the foreground
region becomes less dominant in 3D space, we firstly propose a multi-modal data
editing strategy -- Stereo-LiDAR Copy-Paste, which ensures cross-modal
alignment and improves data efficiency. Without bells and whistles, extensive
experiments in various modality setups on the popular KITTI benchmark show that
our method consistently outperforms other camera-based 3D detectors for all
categories. Code will be released at https://github.com/chenyilun95/DSGN2.
- Abstract(参考訳): カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
ステレオモデリングを洗練し,2次元から3次元のパイプラインを通しての情報の流れを改善することを目的としたアプローチDSGN++を提案する。
まず,2次元情報をステレオボリュームに効果的に持ち上げるために,より密接な接続を可能にし,奥行き誘導特徴を抽出するDPSを提案する。
第2に、異なる空間的特徴をよりよく把握するために、新しいステレオボリュームであるデュアルビューステレオボリューム(dsv)を紹介し、フロントビューとトップビュー機能を統合し、カメラフラスタム内のサブボクセル深度を再構築する。
第3に,前景領域が3次元空間において支配的になるにつれて,まず,多モードデータ編集戦略であるStereo-LiDAR Copy-Pasteを提案する。
ベルやホイッスルがなければ、KITTIベンチマークにおける様々なモード設定の広範な実験により、我々の手法はあらゆるカテゴリで他のカメラベースの3D検出器よりも一貫して優れていることが示される。
コードはhttps://github.com/chenyilun95/DSGN2でリリースされる。
関連論文リスト
- Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - Unsupervised Multi-view Pedestrian Detection [12.882317991955228]
2D-3Dマッピングによる多視点歩行者検出器の学習におけるアノテーションの必要性を排除するために,unsupervised Multi-view Pedestrian Detection approach (UMPD)を提案する。
SISは、疑似ラベルとして2次元歩行者マスクに変換される多視点画像の教師なし表現を抽出することを提案する。
GVDは、多視点2D画像を3Dボリュームにエンコードし、3Dから2Dマッピングで訓練された2Dから3Dの幾何学的投影を通して、ボクセルの密度と色を予測する。
論文 参考訳(メタデータ) (2023-05-21T13:27:02Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - LIGA-Stereo: Learning LiDAR Geometry Aware Representations for
Stereo-based 3D Detector [80.7563981951707]
本稿では,LIGA-Stereoによるステレオ3次元検出器の学習について,LiDARに基づく検出モデルの高レベルな幾何認識表現の指導の下で提案する。
現状のステレオ検出器と比較して,車,歩行者,サイクリストの3次元検出性能は,それぞれ10.44%,5.69%,5.97%向上した。
論文 参考訳(メタデータ) (2021-08-18T17:24:40Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。
LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-03-17T03:43:54Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。