論文の概要: M&M3D: Multi-Dataset Training and Efficient Network for Multi-view 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2311.00986v1
- Date: Thu, 2 Nov 2023 04:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:52:23.808839
- Title: M&M3D: Multi-Dataset Training and Efficient Network for Multi-view 3D
Object Detection
- Title(参考訳): M&M3D:マルチビュー3Dオブジェクト検出のためのマルチデータセットトレーニングと効率的なネットワーク
- Authors: Hang Zhang
- Abstract要約: カメラのみのデータとBird's-Eye-View Mapを用いたマルチビュー3Dオブジェクト検出のためのネットワーク構造を提案した。
私の仕事は、現在の重要なドメイン適応とビジュアルデータ転送に基づいています。
本研究は,3次元情報を利用可能な意味情報として利用し,視覚的言語伝達設計にブレンドした2次元多視点画像特徴について述べる。
- 参考スコア(独自算出の注目度): 2.5158048364984564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this research, I proposed a network structure for multi-view 3D object
detection using camera-only data and a Bird's-Eye-View map. My work is based on
a current key challenge domain adaptation and visual data transfer. Although
many excellent camera-only 3D object detection has been continuously proposed,
many research work risk dramatic performance drop when the networks are trained
on the source domain but tested on a different target domain. Then I found it
is very surprising that predictions on bounding boxes and classes are still
replied to on 2D networks. Based on the domain gap assumption on various 3D
datasets, I found they still shared a similar data extraction on the same BEV
map size and camera data transfer. Therefore, to analyze the domain gap
influence on the current method and to make good use of 3D space information
among the dataset and the real world, I proposed a transfer learning method and
Transformer construction to study the 3D object detection on NuScenes-mini and
Lyft. Through multi-dataset training and a detection head from the Transformer,
the network demonstrated good data migration performance and efficient
detection performance by using 3D anchor query and 3D positional information.
Relying on only a small amount of source data and the existing large model
pre-training weights, the efficient network manages to achieve competitive
results on the new target domain. Moreover, my study utilizes 3D information as
available semantic information and 2D multi-view image features blending into
the visual-language transfer design. In the final 3D anchor box prediction and
object classification, my network achieved good results on standard metrics of
3D object detection, which differs from dataset-specific models on each
training domain without any fine-tuning.
- Abstract(参考訳): 本研究では,カメラのみのデータとバードズアイビューマップを用いたマルチビュー3次元物体検出のためのネットワーク構造を提案する。
私の仕事は、現在のキーチャレンジドメイン適応とビジュアルデータ転送に基づいています。
多くの優れたカメラのみの3dオブジェクト検出が提案されているが、ネットワークがソースドメインでトレーニングされ、異なるターゲットドメインでテストされた場合、多くの研究作業は劇的なパフォーマンス低下をリスクにしている。
そして、バウンディングボックスやクラスに関する予測が2Dネットワーク上でもまだ応答していることに驚きました。
さまざまな3dデータセットにおけるドメインギャップの仮定に基づいて、同じbevマップサイズとカメラデータ転送で同様のデータ抽出が共有されていることが分かりました。
そこで,本手法における領域ギャップの影響を解析し,データセットと実世界の3次元空間情報を有効活用するために,nuscenes-miniとlyftの3次元物体検出法とトランスフォーマー構造を提案する。
マルチデータセットのトレーニングとTransformerからの検出ヘッドにより、3Dアンカークエリと3D位置情報を用いてデータマイグレーション性能と効率的な検出性能を示した。
少量のソースデータと既存の大規模モデルの事前学習重みを頼りに、効率の良いネットワークは、新しいターゲットドメイン上での競合的な結果を達成する。
さらに,3次元情報を利用可能な意味情報として活用し,視覚言語伝達設計に融合した2次元多視点画像特徴について検討した。
最終的な3Dアンカーボックスの予測とオブジェクト分類において、私のネットワークは3Dオブジェクト検出の標準基準で良い結果を得た。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - MDT3D: Multi-Dataset Training for LiDAR 3D Object Detection
Generalization [3.8243923744440926]
特定の点分布を持つソースデータセットでトレーニングされた3Dオブジェクト検出モデルは、目に見えないデータセットに一般化する上で困難であることが示されている。
我々は、アノテーション付きソースデータセットから利用可能な情報を、MDT3D(Multi-Dataset Training for 3D Object Detection)メソッドで活用する。
トレーニング中にデータセットの混合をどのように管理し、最後にクロスデータセット拡張メソッド、すなわちクロスデータセットオブジェクトインジェクションを導入するかを示します。
論文 参考訳(メタデータ) (2023-08-02T08:20:00Z) - Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection [34.2238222373818]
現在の3Dオブジェクト検出モデルは、単一のデータセット固有のトレーニングとテストのパラダイムに従っている。
本稿では,複数のデータセットから統合された3次元検出器を訓練する作業について検討する。
単純なデータレベルの修正操作と設計された意味レベルの結合・再結合モジュールを利用するUni3Dを提案する。
論文 参考訳(メタデータ) (2023-03-13T05:54:13Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - A Simple and Efficient Multi-task Network for 3D Object Detection and
Road Understanding [20.878931360708343]
シンプルで効率的なマルチタスクネットワークを通じて、すべての知覚タスクを実行できることを示します。
提案するネットワークであるLidarMTLは、生のLiDAR点雲を入力とし、3次元物体検出と道路理解のための6つの知覚出力を予測する。
論文 参考訳(メタデータ) (2021-03-06T08:00:26Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。