Fugu-MT 論文翻訳(概要): Every Dataset Counts: Scaling up Monocular 3D Object Detection with Joint Datasets Training

論文の概要: Every Dataset Counts: Scaling up Monocular 3D Object Detection with Joint Datasets Training

arxiv url: http://arxiv.org/abs/2310.00920v2
Date: Fri, 8 Mar 2024 12:51:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 23:27:48.792644
Title: Every Dataset Counts: Scaling up Monocular 3D Object Detection with Joint Datasets Training
Title（参考訳）: すべてのデータセット数:ジョイントデータセットトレーニングによる単眼3Dオブジェクト検出のスケールアップ
Authors: Fulong Ma, Xiaoyang Yan, Guoyang Zhao, Xiaojie Xu, Yuxuan Liu and Ming Liu
Abstract要約: 本研究では,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。
参考スコア（独自算出の注目度）: 8.759849966732519
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monocular 3D object detection plays a crucial role in autonomous driving. However, existing monocular 3D detection algorithms depend on 3D labels derived from LiDAR measurements, which are costly to acquire for new datasets and challenging to deploy in novel environments. Specifically, this study investigates the pipeline for training a monocular 3D object detection model on a diverse collection of 3D and 2D datasets. The proposed framework comprises three components: (1) a robust monocular 3D model capable of functioning across various camera settings, (2) a selective-training strategy to accommodate datasets with differing class annotations, and (3) a pseudo 3D training approach using 2D labels to enhance detection performance in scenes containing only 2D labels. With this framework, we could train models on a joint set of various open 3D/2D datasets to obtain models with significantly stronger generalization capability and enhanced performance on new dataset with only 2D labels. We conduct extensive experiments on KITTI/nuScenes/ONCE/Cityscapes/BDD100K datasets to demonstrate the scaling ability of the proposed method.
Abstract（参考訳）: モノクロ3D物体検出は、自律運転において重要な役割を果たす。しかし、既存のモノクル3D検出アルゴリズムは、LiDAR測定から派生した3Dラベルに依存している。具体的には,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。このフレームワークにより、様々なオープンな3D/2Dデータセットのジョイントセット上でモデルをトレーニングし、より強力な一般化能力を持つモデルと、2Dラベルのみを持つ新しいデータセットの性能を向上させることができる。 KITTI/nuScenes/ONCE/Cityscapes/BDD100Kデータセットに関する広範な実験を行い、提案手法のスケーリング能力を実証した。

関連論文リスト

3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文参考訳（メタデータ） (2025-07-31T13:56:41Z)
PLOT: Pseudo-Labeling via Video Object Tracking for Scalable Monocular 3D Object Detection [35.524943073010675]
モノクロ3Dオブジェクト検出(M3OD)は、高アノテーションコストと固有の2Dから3Dの曖昧さに起因するデータの不足により、長年にわたって課題に直面してきた。ビデオデータのみを使用し、マルチビュー設定、追加センサー、カメラポーズ、ドメイン固有のトレーニングを必要とせず、より堅牢な疑似ラベルフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-03T07:46:39Z)
V-MIND: Building Versatile Monocular Indoor 3D Detector with Diverse 2D Annotations [17.49394091283978]
V-MIND(Versatile Monocular Indoor Detector)は,室内3D検出器の性能を向上させる。大規模2次元画像を3次元点雲に変換し,その後に擬似3次元境界ボックスを導出することにより,3次元学習データを生成する。 V-MINDはOmni3D屋内データセット上の幅広いクラスにわたる最先端のオブジェクト検出性能を実現する。
論文参考訳（メタデータ） (2024-12-16T03:28:00Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。 RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文参考訳（メタデータ） (2024-07-11T14:58:49Z)
Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文参考訳（メタデータ） (2024-04-15T21:30:50Z)
VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文参考訳（メタデータ） (2024-04-15T03:12:12Z)
OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。コードと事前訓練されたモデルは、後にリリースされる。
論文参考訳（メタデータ） (2024-03-28T17:05:04Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
MDT3D: Multi-Dataset Training for LiDAR 3D Object Detection Generalization [3.8243923744440926]
特定の点分布を持つソースデータセットでトレーニングされた3Dオブジェクト検出モデルは、目に見えないデータセットに一般化する上で困難であることが示されている。我々は、アノテーション付きソースデータセットから利用可能な情報を、MDT3D(Multi-Dataset Training for 3D Object Detection)メソッドで活用する。トレーニング中にデータセットの混合をどのように管理し、最後にクロスデータセット拡張メソッド、すなわちクロスデータセットオブジェクトインジェクションを導入するかを示します。
論文参考訳（メタデータ） (2023-08-02T08:20:00Z)
Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文参考訳（メタデータ） (2023-06-08T17:58:45Z)
Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-12T15:30:02Z)
SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。 SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文参考訳（メタデータ） (2020-02-24T08:15:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。