論文の概要: MAP-Gen: An Automated 3D-Box Annotation Flow with Multimodal Attention
Point Generator
- arxiv url: http://arxiv.org/abs/2203.15700v1
- Date: Tue, 29 Mar 2022 16:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 18:30:47.109254
- Title: MAP-Gen: An Automated 3D-Box Annotation Flow with Multimodal Attention
Point Generator
- Title(参考訳): MAP-Gen:マルチモーダルアテンションポイントジェネレータを用いた自動3Dボックスアノテーションフロー
- Authors: Chang Liu, Xiaoyan Qian, Xiaojuan Qi, Edmund Y. Lam, Siew-Chong Tan,
Ngai Wong
- Abstract要約: 本研究では,弱い2Dボックスから高品質な3Dラベルを生成するマルチモーダルアテンションポイントジェネレータ(MAP-Gen)を提案する。
MAP-Genを用いて、2Dボックスで弱制御されたオブジェクト検出ネットワークは、3Dアノテーションで完全に教師されたオブジェクトの9499%のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 33.354908372755325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manually annotating 3D point clouds is laborious and costly, limiting the
training data preparation for deep learning in real-world object detection.
While a few previous studies tried to automatically generate 3D bounding boxes
from weak labels such as 2D boxes, the quality is sub-optimal compared to human
annotators. This work proposes a novel autolabeler, called multimodal attention
point generator (MAP-Gen), that generates high-quality 3D labels from weak 2D
boxes. It leverages dense image information to tackle the sparsity issue of 3D
point clouds, thus improving label quality. For each 2D pixel, MAP-Gen predicts
its corresponding 3D coordinates by referencing context points based on their
2D semantic or geometric relationships. The generated 3D points densify the
original sparse point clouds, followed by an encoder to regress 3D bounding
boxes. Using MAP-Gen, object detection networks that are weakly supervised by
2D boxes can achieve 94~99% performance of those fully supervised by 3D
annotations. It is hopeful this newly proposed MAP-Gen autolabeling flow can
shed new light on utilizing multimodal information for enriching sparse point
clouds.
- Abstract(参考訳): 3dポイントクラウドを手動でアノテートするのは手間とコストがかかり、現実世界のオブジェクト検出におけるディープラーニングのためのトレーニングデータ準備が制限される。
2dボックスのような弱いラベルから3dバウンディングボックスを自動生成する試みはいくつかあるが、人間のアノテーションと比べて品質は最適ではない。
本研究では,弱い2Dボックスから高品質な3Dラベルを生成するマルチモーダルアテンションポイントジェネレータ(MAP-Gen)を提案する。
密度の高い画像情報を利用して3dポイント雲のスパーシティ問題に対処し、ラベルの品質を向上させる。
各2dピクセルについて、map-genはその2d意味的または幾何学的関係に基づいてコンテキストポイントを参照することで対応する3d座標を予測する。
生成された3Dポイントは、元のスパースポイントの雲を密度化し、続いてエンコーダが3Dバウンディングボックスを補強する。
MAP-Genを用いて、2Dボックスで弱制御されたオブジェクト検出ネットワークは、3Dアノテーションで完全に教師されたオブジェクトの94~99%のパフォーマンスを達成することができる。
新たに提案されたMAP-Genオートラベリングフローは、スパース点雲の濃縮にマルチモーダル情報を利用することで、新たな光を放つことが期待できる。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Points-to-3D: Bridging the Gap between Sparse Points and
Shape-Controllable Text-to-3D Generation [16.232803881159022]
本稿では,スパースで自由な3Dポイントとリアルな形状制御可能な3D生成とのギャップを埋めるために,Points-to-3Dのフレキシブルなフレームワークを提案する。
Points-to-3Dの基本的な考え方は、テキストから3D生成を導くために制御可能なスパース3Dポイントを導入することである。
論文 参考訳(メタデータ) (2023-07-26T02:16:55Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection [85.08249413137558]
LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。
小さい、遠く、不完全な点の少ない物体は、しばしば検出するのが困難である。
Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。
論文 参考訳(メタデータ) (2022-11-23T16:01:06Z) - Multimodal Transformer for Automatic 3D Annotation and Object Detection [27.92241487946078]
本稿では,弱い2次元境界ボックスから正確な3Dボックスアノテーションを生成するために,エンドツーエンドのマルチモーダルトランス(MTrans)自動ラベルラを提案する。
マルチタスク設計により、MTransはフォアグラウンド/バックグラウンドを分割し、LiDAR点雲を密度化し、3Dボックスを同時に再描画する。
スパース点雲を濃縮することにより,KITTI中等度試料および硬質試料に対して,それぞれ4.48%,4.03%良好な3次元APが得られる。
論文 参考訳(メタデータ) (2022-07-20T10:38:29Z) - Deep Hybrid Self-Prior for Full 3D Mesh Generation [57.78562932397173]
本稿では,深部ニューラルネットワークにおける2D-3Dのハイブリッドな自己優先性を利用して,幾何学的品質を著しく向上する手法を提案する。
特に,まず3次元自己優先型3次元畳み込みニューラルネットワークを用いて初期メッシュを生成し,次いで2次元紫外線アトラスに3次元情報と色情報をエンコードする。
本手法は,スパース入力から高品質な3次元テクスチャメッシュモデルを復元し,テクスチャ品質とテクスチャ品質の両面で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-08-18T07:44:21Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。