論文の概要: MonoNext: A 3D Monocular Object Detection with ConvNext
- arxiv url: http://arxiv.org/abs/2308.00596v1
- Date: Tue, 1 Aug 2023 15:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 13:41:24.973136
- Title: MonoNext: A 3D Monocular Object Detection with ConvNext
- Title(参考訳): MonoNext: ConvNextを使った3Dモノクロオブジェクト検出
- Authors: Marcelo Eduardo Pederiva, Jos\'e Mario De Martino and Alessandro
Zimmer
- Abstract要約: 本稿では3次元物体検出のためのMonoNextと呼ばれる新しいマルチタスク学習手法を提案する。
MonoNextは、ConvNextネットワークに基づく直接的なアプローチを採用し、3Dバウンディングボックスデータのみを必要とする。
KITTIデータセットを用いた実験では,MonoNextは最先端のアプローチに匹敵する高精度かつ競争的な性能を達成した。
- 参考スコア(独自算出の注目度): 69.33657875725747
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous driving perception tasks rely heavily on cameras as the primary
sensor for Object Detection, Semantic Segmentation, Instance Segmentation, and
Object Tracking. However, RGB images captured by cameras lack depth
information, which poses a significant challenge in 3D detection tasks. To
supplement this missing data, mapping sensors such as LIDAR and RADAR are used
for accurate 3D Object Detection. Despite their significant accuracy, the
multi-sensor models are expensive and require a high computational demand. In
contrast, Monocular 3D Object Detection models are becoming increasingly
popular, offering a faster, cheaper, and easier-to-implement solution for 3D
detections. This paper introduces a different Multi-Tasking Learning approach
called MonoNext that utilizes a spatial grid to map objects in the scene.
MonoNext employs a straightforward approach based on the ConvNext network and
requires only 3D bounding box annotated data. In our experiments with the KITTI
dataset, MonoNext achieved high precision and competitive performance
comparable with state-of-the-art approaches. Furthermore, by adding more
training data, MonoNext surpassed itself and achieved higher accuracies.
- Abstract(参考訳): 自律運転認識タスクは、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト追跡の主要なセンサーとして、カメラに大きく依存している。
しかし、カメラが捉えたRGB画像には深度情報がないため、3D検出タスクでは大きな課題となる。
この欠落したデータを補うために、LIDARやRADARのようなマッピングセンサーが正確な3Dオブジェクト検出に使われている。
精度は高いが、マルチセンサーモデルは高価であり、高い計算要求を必要とする。
対照的に、モノクロ3Dオブジェクト検出モデルは、より高速で安価で実装が容易な3D検出ソリューションを提供することで、ますます人気が高まっている。
本稿では,空間格子を用いてシーン内のオブジェクトをマッピングするMonoNextという,異なるマルチタスク学習手法を提案する。
MonoNextは、ConvNextネットワークに基づく直接的なアプローチを採用し、3Dバウンディングボックスアノテートデータのみを必要とする。
KITTIデータセットを用いた実験では,MonoNextは最先端のアプローチに匹敵する高精度かつ競争的な性能を達成した。
さらに、より多くのトレーニングデータを追加することで、mononextは自身を越え、高い精度を達成した。
関連論文リスト
- Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - M&M3D: Multi-Dataset Training and Efficient Network for Multi-view 3D
Object Detection [2.5158048364984564]
カメラのみのデータとBird's-Eye-View Mapを用いたマルチビュー3Dオブジェクト検出のためのネットワーク構造を提案した。
私の仕事は、現在の重要なドメイン適応とビジュアルデータ転送に基づいています。
本研究は,3次元情報を利用可能な意味情報として利用し,視覚的言語伝達設計にブレンドした2次元多視点画像特徴について述べる。
論文 参考訳(メタデータ) (2023-11-02T04:28:51Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - A Lightweight and Detector-free 3D Single Object Tracker on Point Clouds [50.54083964183614]
生のLiDARスキャンにおける物体の点雲は、通常スパースで不完全であるため、正確な目標固有検出を行うのは簡単ではない。
DMTは、複雑な3D検出器の使用を完全に除去する3Dトラッキングネットワークである。
論文 参考訳(メタデータ) (2022-03-08T17:49:07Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Single-Shot 3D Detection of Vehicles from Monocular RGB Images via
Geometry Constrained Keypoints in Real-Time [6.82446891805815]
単眼RGB画像における車両検出のための新しい3次元単発物体検出法を提案する。
提案手法は,3次元空間への2次元検出を付加回帰および分類パラメータの予測により引き上げる。
KITTI 3D Object Detection と新しい nuScenes Object Detection ベンチマークを用いて,自律走行のための異なるデータセットに対するアプローチを検証し,その評価を行った。
論文 参考訳(メタデータ) (2020-06-23T15:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。