論文の概要: MonoDETRNext: Next-Generation Accurate and Efficient Monocular 3D Object Detector
- arxiv url: http://arxiv.org/abs/2405.15176v2
- Date: Wed, 27 Nov 2024 08:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:23:31.487355
- Title: MonoDETRNext: Next-Generation Accurate and Efficient Monocular 3D Object Detector
- Title(参考訳): MonoDETRNext: 次世代の高精度で効率的なモノクル3Dオブジェクト検出器
- Authors: Pan Liao, Feng Yang, Di Wu, Wenhui Zhao, Jinwen Yu,
- Abstract要約: モノクロ3次元物体検出のための新しいモデルMonoDETRNextを提案する。
速度を優先するMonoDETRNext-Eと、正確性を重視したMonoDETRNext-Aの2つのバリエーションがある。
既存のソリューションに対して,モデルの性能を徹底的に評価した。
- 参考スコア(独自算出の注目度): 7.07812127504885
- License:
- Abstract: Monocular 3D object detection has vast application potential across various fields. DETR-type models have shown remarkable performance in different areas, but there is still considerable room for improvement in monocular 3D detection, especially with the existing DETR-based method, MonoDETR. After addressing the query initialization issues in MonoDETR, we explored several performance enhancement strategies, such as incorporating a more efficient encoder and utilizing a more powerful depth estimator. Ultimately, we proposed MonoDETRNext, a model that comes in two variants based on the choice of depth estimator: MonoDETRNext-E, which prioritizes speed, and MonoDETRNext-A, which focuses on accuracy. We posit that MonoDETRNext establishes a new benchmark in monocular 3D object detection and opens avenues for future research. We conducted an exhaustive evaluation demonstrating the model's superior performance against existing solutions. Notably, MonoDETRNext-A demonstrated a 3.52$\%$ improvement in the $AP_{3D}$ metric on the KITTI test benchmark over MonoDETR, while MonoDETRNext-E showed a 2.35$\%$ increase. Additionally, the computational efficiency of MonoDETRNext-E slightly exceeds that of its predecessor.
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、様々な分野にわたる大きな応用可能性を持つ。
DETR型モデルは様々な領域で顕著な性能を示したが、モノクル3次元検出、特に既存のDETRベースのMonoDETRでは改善の余地がまだ残っている。
MonoDETRのクエリ初期化問題に対処した後、より効率的なエンコーダの導入や、より強力な深さ推定器の利用など、いくつかのパフォーマンス向上戦略について検討した。
最終的に私たちは,深度推定器の選択に基づく2つのモデルであるMonoDETRNextと,精度を重視したMonoDETRNext-Aを提案しました。
我々はMonoDETRNextがモノクロ3Dオブジェクト検出の新しいベンチマークを確立し、今後の研究への道を開くと仮定する。
既存のソリューションに対して,モデルの性能を徹底的に評価した。
特に、MonoDETRNext-Aは、MonoDETR上でのKITTIテストベンチマークで、$AP_{3D}$メトリックの3.52$\%の改善を示し、MonoDETRNext-Eは2.35$\%の改善を示した。
さらに、MonoDETRNext-Eの計算効率は、前者の計算効率をわずかに上回っている。
関連論文リスト
- MonoDINO-DETR: Depth-Enhanced Monocular 3D Object Detection Using a Vision Foundation Model [2.0624236247076397]
本研究では,視覚変換器(ViT)をベースとした基礎モデルをバックボーンとし,世界的特徴を抽出して深度推定を行う。
検出変換器(DETR)アーキテクチャを統合し、深度推定と物体検出性能を1段階的に改善する。
提案モデルは、KITTIの3Dベンチマークと高標高レース環境から収集したカスタムデータセットの評価により、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-01T04:37:13Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - MS-DETR: Efficient DETR Training with Mixed Supervision [74.93329653526952]
MS-DETRは、推論に使用されるプライマリデコーダのオブジェクトクエリを1対1で監視する。
このアプローチではデコーダのブランチやオブジェクトクエリを追加する必要はありません。
実験結果から,本手法はDETRの変種よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-08T16:08:53Z) - S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。
これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - MonoNext: A 3D Monocular Object Detection with ConvNext [69.33657875725747]
本稿では3次元物体検出のためのMonoNextと呼ばれる新しいマルチタスク学習手法を提案する。
MonoNextは、ConvNextネットワークに基づく直接的なアプローチを採用し、3Dバウンディングボックスデータのみを必要とする。
KITTIデータセットを用いた実験では,MonoNextは最先端のアプローチに匹敵する高精度かつ競争的な性能を達成した。
論文 参考訳(メタデータ) (2023-08-01T15:15:40Z) - Monocular 3D Object Detection with Bounding Box Denoising in 3D by
Perceiver [45.16079927526731]
モノクル3D物体検出の主な課題は、3D中心の正確な位置決めである。
本稿では,2次元から3次元への情報フローと3次元から2次元への情報フローを組み合わせた段階的アプローチを提案する。
提案手法はMonoXiverと命名され, 背骨単分子3D検出器に容易に適用可能である。
論文 参考訳(メタデータ) (2023-04-03T18:24:46Z) - MonoATT: Online Monocular 3D Object Detection with Adaptive Token
Transformer [20.797532618963828]
我々はMonoATTと呼ばれるオンラインMono3Dフレームワークを提案する。これは、様々な形状と大きさの異質なトークンを持つ新しいビジョントランスフォーマーを活用して、モバイルMono3Dを容易にする。
MonoATTは最先端の手法と比較して大きなマージンで最高のパフォーマンスを示し、KITTI 3Dベンチマークで第1位にランクされている。
論文 参考訳(メタデータ) (2023-03-23T03:45:03Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。