論文の概要: Multimodal Transformer for Automatic 3D Annotation and Object Detection
- arxiv url: http://arxiv.org/abs/2207.09805v1
- Date: Wed, 20 Jul 2022 10:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:43:47.458950
- Title: Multimodal Transformer for Automatic 3D Annotation and Object Detection
- Title(参考訳): 自動3次元アノテーションとオブジェクト検出のためのマルチモーダルトランス
- Authors: Chang Liu, Xiaoyan Qian, Binxiao Huang, Xiaojuan Qi, Edmund Lam,
Siew-Chong Tan, Ngai Wong
- Abstract要約: 本稿では,弱い2次元境界ボックスから正確な3Dボックスアノテーションを生成するために,エンドツーエンドのマルチモーダルトランス(MTrans)自動ラベルラを提案する。
マルチタスク設計により、MTransはフォアグラウンド/バックグラウンドを分割し、LiDAR点雲を密度化し、3Dボックスを同時に再描画する。
スパース点雲を濃縮することにより,KITTI中等度試料および硬質試料に対して,それぞれ4.48%,4.03%良好な3次元APが得られる。
- 参考スコア(独自算出の注目度): 27.92241487946078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite a growing number of datasets being collected for training 3D object
detection models, significant human effort is still required to annotate 3D
boxes on LiDAR scans. To automate the annotation and facilitate the production
of various customized datasets, we propose an end-to-end multimodal transformer
(MTrans) autolabeler, which leverages both LiDAR scans and images to generate
precise 3D box annotations from weak 2D bounding boxes. To alleviate the
pervasive sparsity problem that hinders existing autolabelers, MTrans densifies
the sparse point clouds by generating new 3D points based on 2D image
information. With a multi-task design, MTrans segments the
foreground/background, densifies LiDAR point clouds, and regresses 3D boxes
simultaneously. Experimental results verify the effectiveness of the MTrans for
improving the quality of the generated labels. By enriching the sparse point
clouds, our method achieves 4.48\% and 4.03\% better 3D AP on KITTI moderate
and hard samples, respectively, versus the state-of-the-art autolabeler. MTrans
can also be extended to improve the accuracy for 3D object detection, resulting
in a remarkable 89.45\% AP on KITTI hard samples. Codes are at
\url{https://github.com/Cliu2/MTrans}.
- Abstract(参考訳): 3Dオブジェクト検出モデルをトレーニングするためのデータセットが増えているにもかかわらず、LiDARスキャンに3Dボックスをアノテートするためには、大きな人的努力が依然として必要である。
アノテーションを自動化し,様々なカスタマイズデータセットの作成を容易にするために,LiDARスキャンと画像の両方を利用して,弱い2Dバウンディングボックスから正確な3Dボックスアノテーションを生成する,エンドツーエンドマルチモーダルトランス(MTrans)オートラベルラを提案する。
既存のオートラベラーを阻害する広範性問題を緩和するため、MTransは2D画像情報に基づいて新しい3Dポイントを生成してスパース点雲を密度化する。
マルチタスク設計により、MTransはフォアグラウンド/バックグラウンドを分割し、LiDAR点雲を密度化し、3Dボックスを同時に再描画する。
実験の結果,mtransが生成ラベルの品質を向上させる効果を検証した。
疎点雲を豊かにすることで,kitti中等度および硬度試料の3d apが,最先端オートラベルに比べて4.48\%,4.03\%向上した。
また、3Dオブジェクト検出の精度を向上させるためにMTransを拡張することもできるため、KITTIのサンプルでは89.45\%のAPが顕著である。
コードは \url{https://github.com/Cliu2/MTrans} にある。
関連論文リスト
- Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - Diff3DETR:Agent-based Diffusion Model for Semi-supervised 3D Object Detection [33.58208166717537]
3次元物体検出は3次元シーンの理解に不可欠である。
半教師付き手法の最近の発展は、教師による学習フレームワークを用いて、未ラベルの点群に対する擬似ラベルを生成することにより、この問題を緩和しようとしている。
半教師付き3次元物体検出のためのエージェントベース拡散モデル(Diff3DETR)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:04:22Z) - Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts [50.181870446016376]
本稿では,2Dポイントやボックスプロンプトから3Dオブジェクトを自動的にラベル付けするアルゴリズムを提案する。
従来のアートとは異なり、自動ラベルはバウンディングボックスの代わりに3D形状を予測し、特定のデータセットのトレーニングを必要としない。
論文 参考訳(メタデータ) (2024-07-16T04:53:28Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - MSF3DDETR: Multi-Sensor Fusion 3D Detection Transformer for Autonomous
Driving [0.0]
MSF3DDETR: 画像とLiDAR機能を融合して検出精度を向上させるマルチセンサフュージョン3D検出変換器アーキテクチャを提案する。
我々のエンドツーエンドのシングルステージ、アンカーフリー、NMSフリーネットワークは、マルチビューイメージとLiDARポイントクラウドを取り込み、3Dバウンディングボックスを予測する。
MSF3DDETRネットワークは、DeTRにインスパイアされたハンガリーのアルゴリズムに基づくバイパーティイトマッチングとセット・ツー・セット・ロスを使用して、nuScenesデータセット上でエンドツーエンドにトレーニングされている。
論文 参考訳(メタデータ) (2022-10-27T10:55:15Z) - MAP-Gen: An Automated 3D-Box Annotation Flow with Multimodal Attention
Point Generator [33.354908372755325]
本研究では,弱い2Dボックスから高品質な3Dラベルを生成するマルチモーダルアテンションポイントジェネレータ(MAP-Gen)を提案する。
MAP-Genを用いて、2Dボックスで弱制御されたオブジェクト検出ネットワークは、3Dアノテーションで完全に教師されたオブジェクトの9499%のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2022-03-29T16:02:16Z) - Frustum Fusion: Pseudo-LiDAR and LiDAR Fusion for 3D Detection [0.0]
本稿では,立体対から得られる高精度な点雲と,密度が高いが精度の低い点雲を結合する新しいデータ融合アルゴリズムを提案する。
我々は複数の3次元物体検出法を訓練し、核融合戦略が検出器の性能を継続的に改善することを示す。
論文 参考訳(メタデータ) (2021-11-08T19:29:59Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。