論文の概要: Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts
- arxiv url: http://arxiv.org/abs/2407.11382v2
- Date: Wed, 17 Jul 2024 06:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 11:42:46.339499
- Title: Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts
- Title(参考訳): セグメント、リフト、フィット:2Dプロンプからの自動3D形状ラベル
- Authors: Jianhao Li, Tianyu Sun, Zhongdao Wang, Enze Xie, Bailan Feng, Hongbo Zhang, Ze Yuan, Ke Xu, Jiaheng Liu, Ping Luo,
- Abstract要約: 本稿では,2Dポイントやボックスプロンプトから3Dオブジェクトを自動的にラベル付けするアルゴリズムを提案する。
従来のアートとは異なり、自動ラベルはバウンディングボックスの代わりに3D形状を予測し、特定のデータセットのトレーニングを必要としない。
- 参考スコア(独自算出の注目度): 50.181870446016376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes an algorithm for automatically labeling 3D objects from 2D point or box prompts, especially focusing on applications in autonomous driving. Unlike previous arts, our auto-labeler predicts 3D shapes instead of bounding boxes and does not require training on a specific dataset. We propose a Segment, Lift, and Fit (SLF) paradigm to achieve this goal. Firstly, we segment high-quality instance masks from the prompts using the Segment Anything Model (SAM) and transform the remaining problem into predicting 3D shapes from given 2D masks. Due to the ill-posed nature of this problem, it presents a significant challenge as multiple 3D shapes can project into an identical mask. To tackle this issue, we then lift 2D masks to 3D forms and employ gradient descent to adjust their poses and shapes until the projections fit the masks and the surfaces conform to surrounding LiDAR points. Notably, since we do not train on a specific dataset, the SLF auto-labeler does not overfit to biased annotation patterns in the training set as other methods do. Thus, the generalization ability across different datasets improves. Experimental results on the KITTI dataset demonstrate that the SLF auto-labeler produces high-quality bounding box annotations, achieving an AP@0.5 IoU of nearly 90\%. Detectors trained with the generated pseudo-labels perform nearly as well as those trained with actual ground-truth annotations. Furthermore, the SLF auto-labeler shows promising results in detailed shape predictions, providing a potential alternative for the occupancy annotation of dynamic objects.
- Abstract(参考訳): 本稿では2Dポイントやボックスプロンプトから3Dオブジェクトを自動的にラベル付けするアルゴリズムを提案する。
従来のアートとは異なり、自動ラベルはバウンディングボックスの代わりに3D形状を予測し、特定のデータセットのトレーニングを必要としない。
この目的を達成するために、Segment, Lift, and Fit(SLF)パラダイムを提案する。
まず、Segment Anything Model(SAM)を用いてプロンプトから高品質なインスタンスマスクを分割し、残りの問題を与えられた2次元マスクから3次元形状を予測する。
この問題の性質が不明確であるため、複数の3次元形状が同一のマスクに投影できるため、大きな課題となる。
この問題に対処するため、我々は2Dマスクを3D形状に上げ、その姿勢と形状を調整するために勾配勾配を利用して、プロジェクションがマスクと表面が周囲のLiDAR点に適合するまでに配置する。
注目すべきなのは、特定のデータセットをトレーニングしないため、SLF自動ラベルラは他のメソッドと同じように、トレーニングセット内のバイアス付きアノテーションパターンに過度に適合しないことです。
これにより、異なるデータセット間の一般化能力が改善される。
KITTIデータセットによる実験結果から,SLFオートラベルは高品質なバウンディングボックスアノテーションを生成し,AP@0.5 IoUの90%近くを達成した。
生成された擬似ラベルで訓練されたディテクターは、実際の接頭辞アノテーションで訓練されたディテクターとほぼ同等に機能する。
さらに、SLFオートラベルは、詳細な形状予測の有望な結果を示し、動的オブジェクトの占有アノテーションの潜在的な代替手段を提供する。
関連論文リスト
- ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only [5.699475977818167]
3Dオブジェクト検出は、自動運転車、ロボット工学、拡張現実など、さまざまな応用において重要な役割を果たす。
画像から2次元境界ボックスアノテーションにのみ依存する弱教師付き3次元アノテータを提案する。
論文 参考訳(メタデータ) (2024-07-24T11:58:31Z) - Pseudo Label Refinery for Unsupervised Domain Adaptation on Cross-dataset 3D Object Detection [38.15872244768199]
自己学習技術は、3次元物体検出のための教師なし領域適応の顕著な改善を示している(3D UDA)
これらの技法は典型的には、ターゲット領域のモデルを監督するために擬似ラベル、すなわち3Dボックスを選択する。
従来のテクニックでは、これらのボックスを擬似ラベルとして再重み付けすることでこれを緩和するが、これらのボックスはトレーニングプロセスに悪影響を及ぼす可能性がある。
疑似箱の信頼性を向上させるための新しい擬似ラベル精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-30T09:20:35Z) - 3D Face Modeling via Weakly-supervised Disentanglement Network joint Identity-consistency Prior [62.80458034704989]
切り離された制御因子を特徴とする3次元顔モデルの生成は、コンピュータビジョンやコンピュータグラフィックスの多様な応用において大きな可能性を秘めている。
従来の3D顔モデリング手法は、これらの要因を効果的に解消するために特定のラベルを要求するため、課題に直面している。
本稿では,WSDF(Wakly Supervised Disentanglement Framework)を導入し,過度に拘束的なラベル付けを必要とせず,制御可能な3次元顔モデルのトレーニングを容易にする。
論文 参考訳(メタデータ) (2024-04-25T11:50:47Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z) - Panoptic Lifting for 3D Scene Understanding with Neural Fields [32.59498558663363]
そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。
本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。
実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-19T19:15:36Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Multimodal Transformer for Automatic 3D Annotation and Object Detection [27.92241487946078]
本稿では,弱い2次元境界ボックスから正確な3Dボックスアノテーションを生成するために,エンドツーエンドのマルチモーダルトランス(MTrans)自動ラベルラを提案する。
マルチタスク設計により、MTransはフォアグラウンド/バックグラウンドを分割し、LiDAR点雲を密度化し、3Dボックスを同時に再描画する。
スパース点雲を濃縮することにより,KITTI中等度試料および硬質試料に対して,それぞれ4.48%,4.03%良好な3次元APが得られる。
論文 参考訳(メタデータ) (2022-07-20T10:38:29Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - 3D Guided Weakly Supervised Semantic Segmentation [27.269847900950943]
本稿では,スパース境界ボックスラベルを利用可能な3次元情報に組み込むことにより,弱教師付き2次元セマンティックセマンティックセマンティックセマンティクスモデルを提案する。
手動で2D-3Dセマンティックス(2D-3D-S)データセットのサブセットにバウンディングボックスをラベル付けし、2D-3D推論モジュールを導入し、正確なピクセルワイドセグメント提案マスクを生成する。
論文 参考訳(メタデータ) (2020-12-01T03:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。