論文の概要: Every Dataset Counts: Scaling up Monocular 3D Object Detection with
Joint Datasets Training
- arxiv url: http://arxiv.org/abs/2310.00920v2
- Date: Fri, 8 Mar 2024 12:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 23:27:48.792644
- Title: Every Dataset Counts: Scaling up Monocular 3D Object Detection with
Joint Datasets Training
- Title(参考訳): すべてのデータセット数:ジョイントデータセットトレーニングによる単眼3Dオブジェクト検出のスケールアップ
- Authors: Fulong Ma, Xiaoyang Yan, Guoyang Zhao, Xiaojie Xu, Yuxuan Liu and Ming
Liu
- Abstract要約: 本研究では,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。
提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。
- 参考スコア(独自算出の注目度): 8.759849966732519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection plays a crucial role in autonomous driving.
However, existing monocular 3D detection algorithms depend on 3D labels derived
from LiDAR measurements, which are costly to acquire for new datasets and
challenging to deploy in novel environments. Specifically, this study
investigates the pipeline for training a monocular 3D object detection model on
a diverse collection of 3D and 2D datasets. The proposed framework comprises
three components: (1) a robust monocular 3D model capable of functioning across
various camera settings, (2) a selective-training strategy to accommodate
datasets with differing class annotations, and (3) a pseudo 3D training
approach using 2D labels to enhance detection performance in scenes containing
only 2D labels. With this framework, we could train models on a joint set of
various open 3D/2D datasets to obtain models with significantly stronger
generalization capability and enhanced performance on new dataset with only 2D
labels. We conduct extensive experiments on
KITTI/nuScenes/ONCE/Cityscapes/BDD100K datasets to demonstrate the scaling
ability of the proposed method.
- Abstract(参考訳): モノクロ3D物体検出は、自律運転において重要な役割を果たす。
しかし、既存のモノクル3D検出アルゴリズムは、LiDAR測定から派生した3Dラベルに依存している。
具体的には,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。
提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。
このフレームワークにより、様々なオープンな3D/2Dデータセットのジョイントセット上でモデルをトレーニングし、より強力な一般化能力を持つモデルと、2Dラベルのみを持つ新しいデータセットの性能を向上させることができる。
KITTI/nuScenes/ONCE/Cityscapes/BDD100Kデータセットに関する広範な実験を行い、提案手法のスケーリング能力を実証した。
関連論文リスト
- Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [81.68608983602581]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - MDT3D: Multi-Dataset Training for LiDAR 3D Object Detection
Generalization [3.8243923744440926]
特定の点分布を持つソースデータセットでトレーニングされた3Dオブジェクト検出モデルは、目に見えないデータセットに一般化する上で困難であることが示されている。
我々は、アノテーション付きソースデータセットから利用可能な情報を、MDT3D(Multi-Dataset Training for 3D Object Detection)メソッドで活用する。
トレーニング中にデータセットの混合をどのように管理し、最後にクロスデータセット拡張メソッド、すなわちクロスデータセットオブジェクトインジェクションを導入するかを示します。
論文 参考訳(メタデータ) (2023-08-02T08:20:00Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。