Fugu-MT 論文翻訳(概要): MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method

論文の概要: MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method

arxiv url: http://arxiv.org/abs/2405.15176v1
Date: Fri, 24 May 2024 03:22:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 18:18:44.221359
Title: MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method
Title（参考訳）: MonoDETRNext: 次世代の高精度かつ効率的なモノクロ3次元物体検出法
Authors: Pan Liao, Feng Yang, Di Wu, Liu Bo,
Abstract要約: 2次元検出と深さ推定の成功戦略に基づいて,MonoDETRNextを提案する。提案手法は,効率的なハイブリッドビジュアルエンコーダの開発,深度予測機構の強化,革新的なクエリ生成戦略の導入を含む。既存のソリューションに対して,モデルの性能を徹底的に評価した。
参考スコア（独自算出の注目度）: 7.593733772660951
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Monocular vision-based 3D object detection is crucial in various sectors, yet existing methods face significant challenges in terms of accuracy and computational efficiency. Building on the successful strategies in 2D detection and depth estimation, we propose MonoDETRNext, which seeks to optimally balance precision and processing speed. Our methodology includes the development of an efficient hybrid visual encoder, enhancement of depth prediction mechanisms, and introduction of an innovative query generation strategy, augmented by an advanced depth predictor. Building on MonoDETR, MonoDETRNext introduces two variants: MonoDETRNext-F, which emphasizes speed, and MonoDETRNext-A, which focuses on precision. We posit that MonoDETRNext establishes a new benchmark in monocular 3D object detection and opens avenues for future research. We conducted an exhaustive evaluation demonstrating the model's superior performance against existing solutions. Notably, MonoDETRNext-A demonstrated a 4.60% improvement in the AP3D metric on the KITTI test benchmark over MonoDETR, while MonoDETRNext-F showed a 2.21% increase. Additionally, the computational efficiency of MonoDETRNext-F slightly exceeds that of its predecessor.
Abstract（参考訳）: 単眼視に基づく3次元物体検出は様々な分野において重要であるが、既存の手法では精度と計算効率の面で大きな課題に直面している。 2次元検出と深度推定で成功した戦略に基づいて,精度と処理速度の最適バランスを求めるMonoDETRNextを提案する。提案手法は,効率的なハイブリッドビジュアルエンコーダの開発,深度予測機構の強化,高度深度予測器によって拡張された革新的なクエリ生成戦略の導入を含む。 MonoDETR上に構築されているMonoDETRNextには,スピードを重視したMonoDETRNext-Fと,精度を重視したMonoDETRNext-Aという2つのバリエーションが導入されている。我々はMonoDETRNextがモノクロ3Dオブジェクト検出の新しいベンチマークを確立し、今後の研究への道を開くと仮定する。既存のソリューションに対して,モデルの性能を徹底的に評価した。特に、MonoDETRNext-Aは、MonoDETRに対するKITTIテストベンチマークでAP3Dの4.60%の改善を示し、MonoDETRNext-Fは2.21%の増加を示した。さらに、MonoDETRNext-Fの計算効率は、前者の計算効率をわずかに上回っている。

関連論文リスト

MonoDINO-DETR: Depth-Enhanced Monocular 3D Object Detection Using a Vision Foundation Model [2.0624236247076397]
本研究では,視覚変換器(ViT)をベースとした基礎モデルをバックボーンとし,世界的特徴を抽出して深度推定を行う。検出変換器(DETR)アーキテクチャを統合し、深度推定と物体検出性能を1段階的に改善する。提案モデルは、KITTIの3Dベンチマークと高標高レース環境から収集したカスタムデータセットの評価により、最近の最先端手法よりも優れている。
論文参考訳（メタデータ） (2025-02-01T04:37:13Z)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳（メタデータ） (2024-12-11T07:32:17Z)
RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文参考訳（メタデータ） (2024-10-02T16:47:55Z)
MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection [9.780498146964097]
リアルタイムモノクロ3Dオブジェクト検出のための革新的なネットワークアーキテクチャであるMonoMMを提案する。 MonoMM は Focused Multi-Scale Fusion (FMF) と Depth-Aware Feature Enhancement Mamba (DMB) モジュールで構成されている。提案手法は,従来の単分子法よりも優れ,リアルタイム検出を実現する。
論文参考訳（メタデータ） (2024-08-01T10:16:58Z)
Scalable Vision-Based 3D Object Detection and Monocular Depth Estimation for Autonomous Driving [5.347428263669927]
この論文は、視覚に基づく3D知覚技術の進歩への多面的な貢献である。第1節では、この論文はモノクロとステレオの両方のオブジェクト検出アルゴリズムに構造的拡張を導入している。第2のセグメントは、データ駆動戦略と、3D視覚検出における実世界の応用に特化している。
論文参考訳（メタデータ） (2024-03-04T13:42:54Z)
MS-DETR: Efficient DETR Training with Mixed Supervision [74.93329653526952]
MS-DETRは、推論に使用されるプライマリデコーダのオブジェクトクエリを1対1で監視する。このアプローチではデコーダのブランチやオブジェクトクエリを追加する必要はありません。実験結果から,本手法はDETRの変種よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-01-08T16:08:53Z)
S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。 KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-09-02T12:36:38Z)
MonoNext: A 3D Monocular Object Detection with ConvNext [69.33657875725747]
本稿では3次元物体検出のためのMonoNextと呼ばれる新しいマルチタスク学習手法を提案する。 MonoNextは、ConvNextネットワークに基づく直接的なアプローチを採用し、3Dバウンディングボックスデータのみを必要とする。 KITTIデータセットを用いた実験では,MonoNextは最先端のアプローチに匹敵する高精度かつ競争的な性能を達成した。
論文参考訳（メタデータ） (2023-08-01T15:15:40Z)
Monocular 3D Object Detection with Bounding Box Denoising in 3D by Perceiver [45.16079927526731]
モノクル3D物体検出の主な課題は、3D中心の正確な位置決めである。本稿では,2次元から3次元への情報フローと3次元から2次元への情報フローを組み合わせた段階的アプローチを提案する。提案手法はMonoXiverと命名され, 背骨単分子3D検出器に容易に適用可能である。
論文参考訳（メタデータ） (2023-04-03T18:24:46Z)
MonoATT: Online Monocular 3D Object Detection with Adaptive Token Transformer [20.797532618963828]
我々はMonoATTと呼ばれるオンラインMono3Dフレームワークを提案する。これは、様々な形状と大きさの異質なトークンを持つ新しいビジョントランスフォーマーを活用して、モバイルMono3Dを容易にする。 MonoATTは最先端の手法と比較して大きなマージンで最高のパフォーマンスを示し、KITTI 3Dベンチマークで第1位にランクされている。
論文参考訳（メタデータ） (2023-03-23T03:45:03Z)
GOOD: General Optimization-based Fusion for 3D Object Detection via LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。 Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。 nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文参考訳（メタデータ） (2023-03-17T07:05:04Z)
A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2022-08-22T03:38:01Z)
From 2D to 3D: Re-thinking Benchmarking of Monocular Depth Prediction [80.67873933010783]
我々は,MDPが現在,3Dアプリケーションにおける予測の有用性を評価するのに有効な指標に頼っていることを論じる。これにより、2Dベースの距離を最適化するのではなく、シーンの3D構造を正確に認識し、推定に向けて改善する新しい手法の設計と開発が制限される。本稿では,MDP手法の3次元幾何評価に適した指標セットと,提案手法に不可欠な室内ベンチマークRIO-D3Dを提案する。
論文参考訳（メタデータ） (2022-03-15T17:50:54Z)
MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object Detection Algorithm [4.958840734249869]
本論文では,マルチスケール深度層構造に基づく1段モノクロ3次元物体検出アルゴリズムを提案する。 KITTIベンチマークの実験では、MDS-Netは既存のモノクル3D検出方法よりも3D検出やBEV検出タスクに優れていた。
論文参考訳（メタデータ） (2022-01-12T07:11:18Z)
SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文参考訳（メタデータ） (2021-12-03T13:57:14Z)
Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文参考訳（メタデータ） (2021-07-29T12:30:39Z)
M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。 M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文参考訳（メタデータ） (2021-04-24T06:48:23Z)
M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文参考訳（メタデータ） (2021-03-24T13:09:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。