論文の概要: VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2404.09431v2
- Date: Mon, 26 Aug 2024 13:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 23:46:51.228830
- Title: VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection
- Title(参考訳): VFMM3D:モノクロ3次元物体検出のためのビジョンファウンデーションモデルによる画像の可能性の緩和
- Authors: Bonan Ding, Jin Xie, Jing Nie, Jiale Cao, Xuelong Li, Yanwei Pang,
- Abstract要約: モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
- 参考スコア(独自算出の注目度): 80.62052650370416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to its cost-effectiveness and widespread availability, monocular 3D object detection, which relies solely on a single camera during inference, holds significant importance across various applications, including autonomous driving and robotics. Nevertheless, directly predicting the coordinates of objects in 3D space from monocular images poses challenges. Therefore, an effective solution involves transforming monocular images into LiDAR-like representations and employing a LiDAR-based 3D object detector to predict the 3D coordinates of objects. The key step in this method is accurately converting the monocular image into a reliable point cloud form. In this paper, we present VFMM3D, an innovative framework that leverages the capabilities of Vision Foundation Models (VFMs) to accurately transform single-view images into LiDAR point cloud representations. VFMM3D utilizes the Segment Anything Model (SAM) and Depth Anything Model (DAM) to generate high-quality pseudo-LiDAR data enriched with rich foreground information. Specifically, the Depth Anything Model (DAM) is employed to generate dense depth maps. Subsequently, the Segment Anything Model (SAM) is utilized to differentiate foreground and background regions by predicting instance masks. These predicted instance masks and depth maps are then combined and projected into 3D space to generate pseudo-LiDAR points. Finally, any object detectors based on point clouds can be utilized to predict the 3D coordinates of objects. Comprehensive experiments are conducted on two challenging 3D object detection datasets, KITTI and Waymo. Our VFMM3D establishes a new state-of-the-art performance on both datasets. Additionally, experimental results demonstrate the generality of VFMM3D, showcasing its seamless integration into various LiDAR-based 3D object detectors.
- Abstract(参考訳): コスト効率と広く利用できるため、単眼の3Dオブジェクト検出は、推論中に単一のカメラにのみ依存するが、自律運転やロボット工学など、様々な応用において重要な役割を担っている。
それでも、モノクラー画像から3次元空間内の物体の座標を直接予測することは課題となる。
そのため、モノクロ画像をLiDARライクな表現に変換し、LiDARベースの3Dオブジェクト検出器を用いてオブジェクトの3D座標を予測する。
この方法の鍵となるステップは、モノクロ画像を信頼性の高い点雲形式に正確に変換することである。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
VFMM3Dは、SAM(Segment Anything Model)とDAM(Depth Anything Model)を使用して、豊富なフォアグラウンド情報に富んだ高品質の擬似LiDARデータを生成する。
具体的には、深度深度マップを生成するためにDAM(Depth Anything Model)を用いる。
次に、Segment Anything Model(SAM)を使用して、インスタンスマスクを予測することにより、前景と背景領域を区別する。
これらの予測されたインスタンスマスクと深度マップを組み合わせて3次元空間に投影し、擬似LiDAR点を生成する。
最後に、点雲に基づく任意の物体検出器を用いて、物体の3次元座標を予測することができる。
総合的な実験は、2つの挑戦的な3Dオブジェクト検出データセット、KITTIとWaymoで行われている。
我々のVFMM3Dは、両方のデータセット上で新しい最先端のパフォーマンスを確立します。
さらに、実験結果はVFMM3Dの一般性を示し、様々なLiDARベースの3Dオブジェクト検出器へのシームレスな統合を示している。
関連論文リスト
- Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Every Dataset Counts: Scaling up Monocular 3D Object Detection with Joint Datasets Training [9.272389295055271]
本研究では,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。
提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。
論文 参考訳(メタデータ) (2023-10-02T06:17:24Z) - SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model [59.04877271899894]
本稿では,SAMのゼロショット能力を3次元物体検出に適用することを検討する。
大規模オープンデータセット上でオブジェクトを検出し,有望な結果を得るために,SAMを用いたBEV処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-04T03:09:21Z) - Aerial Monocular 3D Object Detection [46.26215100532241]
本研究は,2次元画像空間と3次元物理空間の両方において,空中単分子物体検出を実現するために,DVDETというデュアルビュー検出システムを提案する。
この課題に対処するため,AirSIMとCARLAの共同シミュレーションによって生成されたAM3D-Simという新しい大規模シミュレーションデータセットと,DJI Matrice 300 RTKによって収集されたAM3D-Realという新しい実世界の空中データセットを提案する。
論文 参考訳(メタデータ) (2022-08-08T08:32:56Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - Monocular Differentiable Rendering for Self-Supervised 3D Object
Detection [21.825158925459732]
単分子画像からの3次元物体検出は、深さとスケールの射影的絡み合いにより不適切な問題である。
テクスチャ化された3次元形状の再構成と剛体物体のポーズ推定のための新しい自己教師手法を提案する。
本手法は,画像中の物体の3次元位置とメッシュを,異なるレンダリングと自己教師対象を用いて予測する。
論文 参考訳(メタデータ) (2020-09-30T09:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。