論文の概要: MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method
- arxiv url: http://arxiv.org/abs/2405.15176v1
- Date: Fri, 24 May 2024 03:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:18:44.221359
- Title: MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method
- Title(参考訳): MonoDETRNext: 次世代の高精度かつ効率的なモノクロ3次元物体検出法
- Authors: Pan Liao, Feng Yang, Di Wu, Liu Bo,
- Abstract要約: 2次元検出と深さ推定の成功戦略に基づいて,MonoDETRNextを提案する。
提案手法は,効率的なハイブリッドビジュアルエンコーダの開発,深度予測機構の強化,革新的なクエリ生成戦略の導入を含む。
既存のソリューションに対して,モデルの性能を徹底的に評価した。
- 参考スコア(独自算出の注目度): 7.593733772660951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular vision-based 3D object detection is crucial in various sectors, yet existing methods face significant challenges in terms of accuracy and computational efficiency. Building on the successful strategies in 2D detection and depth estimation, we propose MonoDETRNext, which seeks to optimally balance precision and processing speed. Our methodology includes the development of an efficient hybrid visual encoder, enhancement of depth prediction mechanisms, and introduction of an innovative query generation strategy, augmented by an advanced depth predictor. Building on MonoDETR, MonoDETRNext introduces two variants: MonoDETRNext-F, which emphasizes speed, and MonoDETRNext-A, which focuses on precision. We posit that MonoDETRNext establishes a new benchmark in monocular 3D object detection and opens avenues for future research. We conducted an exhaustive evaluation demonstrating the model's superior performance against existing solutions. Notably, MonoDETRNext-A demonstrated a 4.60% improvement in the AP3D metric on the KITTI test benchmark over MonoDETR, while MonoDETRNext-F showed a 2.21% increase. Additionally, the computational efficiency of MonoDETRNext-F slightly exceeds that of its predecessor.
- Abstract(参考訳): 単眼視に基づく3次元物体検出は様々な分野において重要であるが、既存の手法では精度と計算効率の面で大きな課題に直面している。
2次元検出と深度推定で成功した戦略に基づいて,精度と処理速度の最適バランスを求めるMonoDETRNextを提案する。
提案手法は,効率的なハイブリッドビジュアルエンコーダの開発,深度予測機構の強化,高度深度予測器によって拡張された革新的なクエリ生成戦略の導入を含む。
MonoDETR上に構築されているMonoDETRNextには,スピードを重視したMonoDETRNext-Fと,精度を重視したMonoDETRNext-Aという2つのバリエーションが導入されている。
我々はMonoDETRNextがモノクロ3Dオブジェクト検出の新しいベンチマークを確立し、今後の研究への道を開くと仮定する。
既存のソリューションに対して,モデルの性能を徹底的に評価した。
特に、MonoDETRNext-Aは、MonoDETRに対するKITTIテストベンチマークでAP3Dの4.60%の改善を示し、MonoDETRNext-Fは2.21%の増加を示した。
さらに、MonoDETRNext-Fの計算効率は、前者の計算効率をわずかに上回っている。
関連論文リスト
- Scalable Vision-Based 3D Object Detection and Monocular Depth Estimation
for Autonomous Driving [5.347428263669927]
この論文は、視覚に基づく3D知覚技術の進歩への多面的な貢献である。
第1節では、この論文はモノクロとステレオの両方のオブジェクト検出アルゴリズムに構造的拡張を導入している。
第2のセグメントは、データ駆動戦略と、3D視覚検出における実世界の応用に特化している。
論文 参考訳(メタデータ) (2024-03-04T13:42:54Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer [25.61949580447076]
モノクロ3Dオブジェクト検出のための新しいエンド・ツー・エンドディープ・アウェア・トランスフォーマネットワークであるMonoDTRを提案する。
1)Depth-Aware Feature Enhancement (DFE)モジュールは、余分な計算を必要とせずに暗黙的に深度認識機能を学習し、(2)Depth-Aware Transformer (DTR)モジュールは、文脈認識と深度認識機能をグローバルに統合する。
提案する深度認識モジュールは,既存の画像専用単分子3Dオブジェクト検出器に容易に接続でき,性能が向上する。
論文 参考訳(メタデータ) (2022-03-21T13:40:10Z) - From 2D to 3D: Re-thinking Benchmarking of Monocular Depth Prediction [80.67873933010783]
我々は,MDPが現在,3Dアプリケーションにおける予測の有用性を評価するのに有効な指標に頼っていることを論じる。
これにより、2Dベースの距離を最適化するのではなく、シーンの3D構造を正確に認識し、推定に向けて改善する新しい手法の設計と開発が制限される。
本稿では,MDP手法の3次元幾何評価に適した指標セットと,提案手法に不可欠な室内ベンチマークRIO-D3Dを提案する。
論文 参考訳(メタデータ) (2022-03-15T17:50:54Z) - MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object
Detection Algorithm [4.958840734249869]
本論文では,マルチスケール深度層構造に基づく1段モノクロ3次元物体検出アルゴリズムを提案する。
KITTIベンチマークの実験では、MDS-Netは既存のモノクル3D検出方法よりも3D検出やBEV検出タスクに優れていた。
論文 参考訳(メタデータ) (2022-01-12T07:11:18Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。