論文の概要: Weakly Supervised 3D Object Detection with Multi-Stage Generalization
- arxiv url: http://arxiv.org/abs/2306.05418v2
- Date: Tue, 6 Feb 2024 11:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:37:16.562354
- Title: Weakly Supervised 3D Object Detection with Multi-Stage Generalization
- Title(参考訳): 多段階一般化による弱めの3次元物体検出
- Authors: Jiawei He, Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang
- Abstract要約: 擬似ラベル生成と多段階一般化を含むBA$2$-Detを導入する。
一般化の3つの段階、完全から部分へ、静的から動的へ、そして遠い距離へ進む。
BA$2$-Detは、KITTIデータセットの20%の相対的な改善を達成できる。
- 参考スコア(独自算出の注目度): 62.96670547848691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of large models, the need for data has become
increasingly crucial. Especially in 3D object detection, costly manual
annotations have hindered further advancements. To reduce the burden of
annotation, we study the problem of achieving 3D object detection solely based
on 2D annotations. Thanks to advanced 3D reconstruction techniques, it is now
feasible to reconstruct the overall static 3D scene. However, extracting
precise object-level annotations from the entire scene and generalizing these
limited annotations to the entire scene remain challenges. In this paper, we
introduce a novel paradigm called BA$^2$-Det, encompassing pseudo label
generation and multi-stage generalization. We devise the DoubleClustering
algorithm to obtain object clusters from reconstructed scene-level points, and
further enhance the model's detection capabilities by developing three stages
of generalization: progressing from complete to partial, static to dynamic, and
close to distant. Experiments conducted on the large-scale Waymo Open Dataset
show that the performance of BA$^2$-Det is on par with the fully-supervised
methods using 10% annotations. Additionally, using large raw videos for
pretraining,BA$^2$-Det can achieve a 20% relative improvement on the KITTI
dataset. The method also has great potential for detecting open-set 3D objects
in complex scenes. Project page: https://ba2det.site.
- Abstract(参考訳): 大規模モデルの急速な発展に伴い、データの必要性はますます重要になっている。
特に3dオブジェクト検出では、コストのかかる手動アノテーションがさらなる進歩を妨げている。
アノテーションの負担を軽減するため,2次元アノテーションのみに基づく3次元オブジェクト検出の課題について検討した。
高度な3D再構成技術により、全体の静的な3Dシーンを再構築することが可能になった。
しかし、シーン全体から正確なオブジェクトレベルのアノテーションを抽出し、これらの制限されたアノテーションをシーン全体に一般化することは、依然として課題である。
本稿では,擬似ラベル生成と多段階一般化を包含するba$^2$-detと呼ばれる新しいパラダイムを提案する。
再構成されたシーンレベルポイントからオブジェクトクラスタを得るために,ダブルクラスタアルゴリズムを考案し,一般化の3段階(完全から部分へ,静的から動的へ,遠くまで)を展開することにより,モデルの検出能力をさらに向上させる。
大規模なWaymo Open Datasetで実施された実験によると、BA$^2$-Detのパフォーマンスは10%アノテーションを使用した完全に教師された手法と同等である。
さらに、事前トレーニングのために大きな生動画を使用すると、BA$^2$-DetはKITTIデータセットに対して20%の相対的な改善を達成できる。
この手法は複雑なシーンでオープンセットの3Dオブジェクトを検出する可能性も大きい。
プロジェクトページ: https://ba2det.site。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - LASA: Instance Reconstruction from Real Scans using A Large-scale
Aligned Shape Annotation Dataset [17.530432165466507]
本稿では,新しいクロスモーダル形状再構成法とOccGOD法を提案する。
本手法は,インスタンスレベルのシーン再構成と3次元オブジェクト検出の両タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T18:50:10Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - U3DS$^3$: Unsupervised 3D Semantic Scene Segmentation [19.706172244951116]
本稿では,U3DS$3$について,総合的な3Dシーンに対して,完全に教師なしのポイントクラウドセグメンテーションに向けたステップとして提示する。
提案手法の最初のステップは,各シーンの幾何学的特徴に基づいてスーパーポイントを生成することである。
次に、空間クラスタリングに基づく手法を用いて学習プロセスを行い、次いで、クラスタセントロイドに応じて生成された擬似ラベルを用いて反復的なトレーニングを行う。
論文 参考訳(メタデータ) (2023-11-10T12:05:35Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。