論文の概要: EGFN: Efficient Geometry Feature Network for Fast Stereo 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2111.14055v1
- Date: Sun, 28 Nov 2021 05:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:10:07.873584
- Title: EGFN: Efficient Geometry Feature Network for Fast Stereo 3D Object
Detection
- Title(参考訳): EGFN:高速ステレオ3次元物体検出のための効率的な形状特徴ネットワーク
- Authors: Aqi Gao, Yanwei Pang, Jing Nie, Jiale Cao and Yishun Guo
- Abstract要約: 高速ステレオベース3Dオブジェクト検出器は高精度指向法よりもはるかに遅れている。
主な理由として,高速ステレオ法における3次元幾何学的特徴表現の欠如や不足があげられる。
提案された EGFN は、YOLOStsereo3D よりも5.16%向上し、mAP$_3d$ をわずか12msで上回った。
- 参考スコア(独自算出の注目度): 51.52496693690059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast stereo based 3D object detectors have made great progress in the sense
of inference time recently. However, they lag far behind high-precision
oriented methods in accuracy. We argue that the main reason is the missing or
poor 3D geometry feature representation in fast stereo based methods. To solve
this problem, we propose an efficient geometry feature generation network
(EGFN). The key of our EGFN is an efficient and effective 3D geometry feature
representation (EGFR) module. In the EGFR module, light-weight cost volume
features are firstly generated, then are efficiently converted into 3D space,
and finally multi-scale features enhancement in in both image and 3D spaces is
conducted to obtain the 3D geometry features: enhanced light-weight voxel
features. In addition, we introduce a novel multi-scale knowledge distillation
strategy to guide multi-scale 3D geometry features learning. Experimental
results on the public KITTI test set shows that the proposed EGFN outperforms
YOLOStsereo3D, the advanced fast method, by 5.16\% on mAP$_{3d}$ at the cost of
merely additional 12 ms and hence achieves a better trade-off between accuracy
and efficiency for stereo 3D object detection. Our code will be publicly
available.
- Abstract(参考訳): ステレオベースの高速3d物体検出装置は,近年,推論時間の面で大きな進歩を遂げている。
しかし、精度は高精度指向の手法よりもはるかに遅れている。
主な理由は、高速ステレオベース手法における3次元幾何学的特徴表現の欠如または欠如である。
そこで本研究では,効率的な幾何特徴生成ネットワーク(EGFN)を提案する。
EGFNの鍵は、効率よく効果的な3次元幾何学的特徴表現(EGFR)モジュールである。
EGFRモジュールにおいて、まず軽量なコスト容積特性を生成し、その後効率的に3D空間に変換し、最後に画像および3D空間におけるマルチスケールな特徴拡張を行い、3D幾何学的特徴である軽量なボクセル特徴を得る。
さらに,マルチスケールな3次元幾何学的特徴学習のガイドとして,新しい知識蒸留手法を導入する。
公的なKITTIテストセットにおける実験結果から,提案したEGFNは,mAP$_{3d}$で5.16\%の高速手法であるYOLOStsereo3Dよりも高い性能を示し,ステレオ3Dオブジェクト検出の精度と効率のトレードオフが向上した。
私たちのコードは公開されます。
関連論文リスト
- Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - NeRF-Det: Learning Geometry-Aware Volumetric Representation for
Multi-View 3D Object Detection [65.02633277884911]
提案するNeRF-Detは,RGB画像を入力として室内3次元検出を行う新しい手法である。
提案手法は3次元形状を明示的に推定するため, エンドツーエンドでNeRFを用いて3次元検出性能を向上する。
論文 参考訳(メタデータ) (2023-07-27T04:36:16Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object
Detection [59.765645791588454]
最近導入されたRTS3Dは、深度監督のないオブジェクトの中間表現のための効率的な4次元特徴整合埋め込み空間を構築している。
本研究では, 内部領域で高密度サンプリングを行い, 内部領域でスパースサンプリングを行う非一様サンプリング方式を提案する。
提案手法は,ネットワークパラメータをほとんど含まないAP3dに対して2.57%の改善を実現している。
論文 参考訳(メタデータ) (2021-06-18T09:14:55Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - RTS3D: Real-time Stereo 3D Detection from 4D Feature-Consistency
Embedding Space for Autonomous Driving [3.222802562733787]
RTS3Dというステレオ画像から効率的かつ高精度な3次元物体検出法を提案する。
KITTIベンチマークの実験は、RTS3Dがステレオ画像3D検出のための最初の真のリアルタイムシステムであることを示しています。
論文 参考訳(メタデータ) (2020-12-30T07:56:37Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。