論文の概要: MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method
- arxiv url: http://arxiv.org/abs/2405.15176v1
- Date: Fri, 24 May 2024 03:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:18:44.221359
- Title: MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method
- Title(参考訳): MonoDETRNext: 次世代の高精度かつ効率的なモノクロ3次元物体検出法
- Authors: Pan Liao, Feng Yang, Di Wu, Liu Bo,
- Abstract要約: 2次元検出と深さ推定の成功戦略に基づいて,MonoDETRNextを提案する。
提案手法は,効率的なハイブリッドビジュアルエンコーダの開発,深度予測機構の強化,革新的なクエリ生成戦略の導入を含む。
既存のソリューションに対して,モデルの性能を徹底的に評価した。
- 参考スコア(独自算出の注目度): 7.593733772660951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular vision-based 3D object detection is crucial in various sectors, yet existing methods face significant challenges in terms of accuracy and computational efficiency. Building on the successful strategies in 2D detection and depth estimation, we propose MonoDETRNext, which seeks to optimally balance precision and processing speed. Our methodology includes the development of an efficient hybrid visual encoder, enhancement of depth prediction mechanisms, and introduction of an innovative query generation strategy, augmented by an advanced depth predictor. Building on MonoDETR, MonoDETRNext introduces two variants: MonoDETRNext-F, which emphasizes speed, and MonoDETRNext-A, which focuses on precision. We posit that MonoDETRNext establishes a new benchmark in monocular 3D object detection and opens avenues for future research. We conducted an exhaustive evaluation demonstrating the model's superior performance against existing solutions. Notably, MonoDETRNext-A demonstrated a 4.60% improvement in the AP3D metric on the KITTI test benchmark over MonoDETR, while MonoDETRNext-F showed a 2.21% increase. Additionally, the computational efficiency of MonoDETRNext-F slightly exceeds that of its predecessor.
- Abstract(参考訳): 単眼視に基づく3次元物体検出は様々な分野において重要であるが、既存の手法では精度と計算効率の面で大きな課題に直面している。
2次元検出と深度推定で成功した戦略に基づいて,精度と処理速度の最適バランスを求めるMonoDETRNextを提案する。
提案手法は,効率的なハイブリッドビジュアルエンコーダの開発,深度予測機構の強化,高度深度予測器によって拡張された革新的なクエリ生成戦略の導入を含む。
MonoDETR上に構築されているMonoDETRNextには,スピードを重視したMonoDETRNext-Fと,精度を重視したMonoDETRNext-Aという2つのバリエーションが導入されている。
我々はMonoDETRNextがモノクロ3Dオブジェクト検出の新しいベンチマークを確立し、今後の研究への道を開くと仮定する。
既存のソリューションに対して,モデルの性能を徹底的に評価した。
特に、MonoDETRNext-Aは、MonoDETRに対するKITTIテストベンチマークでAP3Dの4.60%の改善を示し、MonoDETRNext-Fは2.21%の増加を示した。
さらに、MonoDETRNext-Fの計算効率は、前者の計算効率をわずかに上回っている。
関連論文リスト
- MonoDINO-DETR: Depth-Enhanced Monocular 3D Object Detection Using a Vision Foundation Model [2.0624236247076397]
本研究では,視覚変換器(ViT)をベースとした基礎モデルをバックボーンとし,世界的特徴を抽出して深度推定を行う。
検出変換器(DETR)アーキテクチャを統合し、深度推定と物体検出性能を1段階的に改善する。
提案モデルは、KITTIの3Dベンチマークと高標高レース環境から収集したカスタムデータセットの評価により、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-01T04:37:13Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - MS-DETR: Efficient DETR Training with Mixed Supervision [74.93329653526952]
MS-DETRは、推論に使用されるプライマリデコーダのオブジェクトクエリを1対1で監視する。
このアプローチではデコーダのブランチやオブジェクトクエリを追加する必要はありません。
実験結果から,本手法はDETRの変種よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-08T16:08:53Z) - S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。
これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - MonoNext: A 3D Monocular Object Detection with ConvNext [69.33657875725747]
本稿では3次元物体検出のためのMonoNextと呼ばれる新しいマルチタスク学習手法を提案する。
MonoNextは、ConvNextネットワークに基づく直接的なアプローチを採用し、3Dバウンディングボックスデータのみを必要とする。
KITTIデータセットを用いた実験では,MonoNextは最先端のアプローチに匹敵する高精度かつ競争的な性能を達成した。
論文 参考訳(メタデータ) (2023-08-01T15:15:40Z) - Monocular 3D Object Detection with Bounding Box Denoising in 3D by
Perceiver [45.16079927526731]
モノクル3D物体検出の主な課題は、3D中心の正確な位置決めである。
本稿では,2次元から3次元への情報フローと3次元から2次元への情報フローを組み合わせた段階的アプローチを提案する。
提案手法はMonoXiverと命名され, 背骨単分子3D検出器に容易に適用可能である。
論文 参考訳(メタデータ) (2023-04-03T18:24:46Z) - MonoATT: Online Monocular 3D Object Detection with Adaptive Token
Transformer [20.797532618963828]
我々はMonoATTと呼ばれるオンラインMono3Dフレームワークを提案する。これは、様々な形状と大きさの異質なトークンを持つ新しいビジョントランスフォーマーを活用して、モバイルMono3Dを容易にする。
MonoATTは最先端の手法と比較して大きなマージンで最高のパフォーマンスを示し、KITTI 3Dベンチマークで第1位にランクされている。
論文 参考訳(メタデータ) (2023-03-23T03:45:03Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。