論文の概要: RTS3D: Real-time Stereo 3D Detection from 4D Feature-Consistency
Embedding Space for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2012.15072v1
- Date: Wed, 30 Dec 2020 07:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 05:59:27.595227
- Title: RTS3D: Real-time Stereo 3D Detection from 4D Feature-Consistency
Embedding Space for Autonomous Driving
- Title(参考訳): RTS3D: 自律運転のための4次元特徴整合埋め込み空間からのリアルタイムステレオ3D検出
- Authors: Peixuan Li, Shun Su, Huaici Zhao
- Abstract要約: RTS3Dというステレオ画像から効率的かつ高精度な3次元物体検出法を提案する。
KITTIベンチマークの実験は、RTS3Dがステレオ画像3D検出のための最初の真のリアルタイムシステムであることを示しています。
- 参考スコア(独自算出の注目度): 3.222802562733787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the recent image-based 3D object detection methods using
Pseudo-LiDAR representation have shown great capabilities, a notable gap in
efficiency and accuracy still exist compared with LiDAR-based methods. Besides,
over-reliance on the stand-alone depth estimator, requiring a large number of
pixel-wise annotations in the training stage and more computation in the
inferencing stage, limits the scaling application in the real world.
In this paper, we propose an efficient and accurate 3D object detection
method from stereo images, named RTS3D. Different from the 3D occupancy space
in the Pseudo-LiDAR similar methods, we design a novel 4D feature-consistent
embedding (FCE) space as the intermediate representation of the 3D scene
without depth supervision. The FCE space encodes the object's structural and
semantic information by exploring the multi-scale feature consistency warped
from stereo pair. Furthermore, a semantic-guided RBF (Radial Basis Function)
and a structure-aware attention module are devised to reduce the influence of
FCE space noise without instance mask supervision. Experiments on the KITTI
benchmark show that RTS3D is the first true real-time system (FPS$>$24) for
stereo image 3D detection meanwhile achieves $10\%$ improvement in average
precision comparing with the previous state-of-the-art method. The code will be
available at https://github.com/Banconxuan/RTS3D
- Abstract(参考訳): Pseudo-LiDAR表現を用いた最近の画像ベース3Dオブジェクト検出法は優れた機能を示しているが、LiDAR法と比較して効率と精度の顕著な差は残っている。
さらに、スタンドアローン深度推定器の過度信頼は、トレーニング段階では大量のピクセル単位のアノテーションを必要とし、推論段階ではより多くの計算を必要とし、実世界のスケーリングアプリケーションを制限する。
本稿では,RTS3Dというステレオ画像から効率よく高精度な3Dオブジェクト検出手法を提案する。
擬似ライダー類似手法における3次元占有空間と異なり,新しい4次元特徴整合埋め込み (fce) 空間を深度監督なしで3次元シーンの中間表現として設計する。
FCE空間は、ステレオペアから歪んだマルチスケールの特徴一貫性を探索することによって、オブジェクトの構造と意味情報を符号化する。
さらに,FCE空間雑音の影響を低減するために,意味誘導型RBF (Radial Basis Function) と構造認識型アテンションモジュールを考案した。
KITTIベンチマークの実験では、RTS3Dはステレオ画像3D検出のための最初の真のリアルタイムシステム(FPS$>$24)であり、従来の最先端手法と比較して平均精度が10\%向上している。
コードはhttps://github.com/Banconxuan/RTS3Dで入手できる。
関連論文リスト
- EGFN: Efficient Geometry Feature Network for Fast Stereo 3D Object
Detection [51.52496693690059]
高速ステレオベース3Dオブジェクト検出器は高精度指向法よりもはるかに遅れている。
主な理由として,高速ステレオ法における3次元幾何学的特徴表現の欠如や不足があげられる。
提案された EGFN は、YOLOStsereo3D よりも5.16%向上し、mAP$_3d$ をわずか12msで上回った。
論文 参考訳(メタデータ) (2021-11-28T05:25:36Z) - LIGA-Stereo: Learning LiDAR Geometry Aware Representations for
Stereo-based 3D Detector [80.7563981951707]
本稿では,LIGA-Stereoによるステレオ3次元検出器の学習について,LiDARに基づく検出モデルの高レベルな幾何認識表現の指導の下で提案する。
現状のステレオ検出器と比較して,車,歩行者,サイクリストの3次元検出性能は,それぞれ10.44%,5.69%,5.97%向上した。
論文 参考訳(メタデータ) (2021-08-18T17:24:40Z) - Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object
Detection [59.765645791588454]
最近導入されたRTS3Dは、深度監督のないオブジェクトの中間表現のための効率的な4次元特徴整合埋め込み空間を構築している。
本研究では, 内部領域で高密度サンプリングを行い, 内部領域でスパースサンプリングを行う非一様サンプリング方式を提案する。
提案手法は,ネットワークパラメータをほとんど含まないAP3dに対して2.57%の改善を実現している。
論文 参考訳(メタデータ) (2021-06-18T09:14:55Z) - Stereo Object Matching Network [78.35697025102334]
本稿では,画像からの2次元コンテキスト情報と3次元オブジェクトレベル情報の両方を利用するステレオオブジェクトマッチング手法を提案する。
コストボリューム空間における3次元オブジェクト性を扱うための新しい方法として, 選択的サンプリング (RoISelect) と 2D-3D 融合がある。
論文 参考訳(メタデータ) (2021-03-23T12:54:43Z) - Stereo CenterNet based 3D Object Detection for Autonomous Driving [2.508414661327797]
ステレオ画像の幾何学的情報を用いた3次元物体検出手法Stereo CenterNetを提案する。
Stereo CenterNetは、空間内のオブジェクトの3D境界ボックスの4つの意味キーポイントを予測し、3D空間におけるオブジェクトのバウンディングボックスを復元するために、2D左の右ボックス、3D次元、向き、キーポイントを使用する。
KITTIデータセットを用いた実験により, ステレオ幾何に基づく最先端手法と比較して, 高速かつ高精度なトレードオフを実現することができた。
論文 参考訳(メタデータ) (2021-03-20T02:18:49Z) - YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。
LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-03-17T03:43:54Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。