論文の概要: Scalable Vision-Based 3D Object Detection and Monocular Depth Estimation
for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2403.02037v1
- Date: Mon, 4 Mar 2024 13:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:35:08.273000
- Title: Scalable Vision-Based 3D Object Detection and Monocular Depth Estimation
for Autonomous Driving
- Title(参考訳): 自律運転のためのスケーラブルビジョンに基づく3次元物体検出と単眼深度推定
- Authors: Yuxuan Liu
- Abstract要約: この論文は、視覚に基づく3D知覚技術の進歩への多面的な貢献である。
第1節では、この論文はモノクロとステレオの両方のオブジェクト検出アルゴリズムに構造的拡張を導入している。
第2のセグメントは、データ駆動戦略と、3D視覚検出における実世界の応用に特化している。
- 参考スコア(独自算出の注目度): 5.347428263669927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This dissertation is a multifaceted contribution to the advancement of
vision-based 3D perception technologies. In the first segment, the thesis
introduces structural enhancements to both monocular and stereo 3D object
detection algorithms. By integrating ground-referenced geometric priors into
monocular detection models, this research achieves unparalleled accuracy in
benchmark evaluations for monocular 3D detection. Concurrently, the work
refines stereo 3D detection paradigms by incorporating insights and inferential
structures gleaned from monocular networks, thereby augmenting the operational
efficiency of stereo detection systems. The second segment is devoted to
data-driven strategies and their real-world applications in 3D vision
detection. A novel training regimen is introduced that amalgamates datasets
annotated with either 2D or 3D labels. This approach not only augments the
detection models through the utilization of a substantially expanded dataset
but also facilitates economical model deployment in real-world scenarios where
only 2D annotations are readily available. Lastly, the dissertation presents an
innovative pipeline tailored for unsupervised depth estimation in autonomous
driving contexts. Extensive empirical analyses affirm the robustness and
efficacy of this newly proposed pipeline. Collectively, these contributions lay
a robust foundation for the widespread adoption of vision-based 3D perception
technologies in autonomous driving applications.
- Abstract(参考訳): この論文は、視覚に基づく3D知覚技術の進歩への多面的な貢献である。
第1セグメントでは、論文はモノクロとステレオの3dオブジェクト検出アルゴリズムの両方に構造的な拡張を導入する。
本研究は,単眼3次元検出のためのベンチマーク評価において,地上参照幾何事前値を単眼検出モデルに統合することにより,非並列精度を実現する。
同時に、単眼ネットワークから得られた洞察と推論構造を取り入れ、ステレオ検出システムの運用効率を高めることにより、ステレオ3次元検出パラダイムを洗練する。
第2のセグメントは、データ駆動戦略と、3D視覚検出における実世界の応用に特化している。
アマルガメートに2Dまたは3Dラベルを付加したアマルガメートデータセットが導入された。
このアプローチは、大幅に拡張されたデータセットを利用することで検出モデルを増強するだけでなく、2Dアノテーションしか利用できない現実のシナリオにおける経済的モデル展開を促進する。
最後に、この論文は自律運転環境における教師なし深度推定に適した革新的なパイプラインを提示する。
広範な実証分析により,新たに提案するパイプラインのロバスト性と有効性が確認された。
これらの貢献は、視覚ベースの3d知覚技術を自動運転アプリケーションで広く採用するための強固な基盤となっている。
関連論文リスト
- Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。
オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2024-11-25T18:59:17Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。
私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文 参考訳(メタデータ) (2023-04-04T04:05:56Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。