論文の概要: RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2108.07794v1
- Date: Tue, 17 Aug 2021 17:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:28:37.700721
- Title: RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection
- Title(参考訳): randomrooms: 3次元物体検出のための合成形状とランダムレイアウトからの教師なし事前学習
- Authors: Yongming Rao, Benlin Liu, Yi Wei, Jiwen Lu, Cho-Jui Hsieh, Jie Zhou
- Abstract要約: 有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 138.2892824662943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D point cloud understanding has made great progress in recent years.
However, one major bottleneck is the scarcity of annotated real datasets,
especially compared to 2D object detection tasks, since a large amount of labor
is involved in annotating the real scans of a scene. A promising solution to
this problem is to make better use of the synthetic dataset, which consists of
CAD object models, to boost the learning on real datasets. This can be achieved
by the pre-training and fine-tuning procedure. However, recent work on 3D
pre-training exhibits failure when transfer features learned on synthetic
objects to other real-world applications. In this work, we put forward a new
method called RandomRooms to accomplish this objective. In particular, we
propose to generate random layouts of a scene by making use of the objects in
the synthetic CAD dataset and learn the 3D scene representation by applying
object-level contrastive learning on two random scenes generated from the same
set of synthetic objects. The model pre-trained in this way can serve as a
better initialization when later fine-tuning on the 3D object detection task.
Empirically, we show consistent improvement in downstream 3D detection tasks on
several base models, especially when less training data are used, which
strongly demonstrates the effectiveness and generalization of our method.
Benefiting from the rich semantic knowledge and diverse objects from synthetic
data, our method establishes the new state-of-the-art on widely-used 3D
detection benchmarks ScanNetV2 and SUN RGB-D. We expect our attempt to provide
a new perspective for bridging object and scene-level 3D understanding.
- Abstract(参考訳): 3d point cloud understandingは近年、大きな進歩を遂げている。
しかしながら、シーンの実際のスキャンに大量の労力がかかるため、特に2dオブジェクト検出タスクと比較して、注釈付き実データセットの不足が大きなボトルネックとなっている。
この問題に対する有望な解決策は、CADオブジェクトモデルからなる合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
これは事前訓練と微調整の手順によって達成できる。
しかし、最近の3D事前学習の研究は、合成オブジェクトから他の実世界のアプリケーションへ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
特に,合成CADデータセットのオブジェクトを用いてシーンのランダムなレイアウトを生成し,同じ合成オブジェクトから生成された2つのランダムなシーンに対して,オブジェクトレベルのコントラスト学習を適用して3次元シーン表現を学習することを提案する。
この方法で事前訓練されたモデルは、後に3Dオブジェクト検出タスクの微調整を行う際に、より良い初期化に役立つ。
実験により,複数のベースモデルにおいて,特にトレーニングデータが少ない場合には,下流3次元検出タスクが一貫した改善を示し,本手法の有効性と一般化を強く示す。
本手法は,合成データから豊富な意味知識と多種多様なオブジェクトを抽出し,ScanNetV2 と SUN RGB-D の広範に使用されている3D検出ベンチマークにおける新たな最先端技術を確立する。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Randomized 3D Scene Generation for Generalizable Self-Supervised
Pre-Training [0.0]
球面高調波を用いた3次元シーン生成手法を提案する。
従来の定式化法をクリアマージンで上回り、実世界のスキャンとCADモデルを用いた手法を用いて、中間結果を得る。
論文 参考訳(メタデータ) (2023-06-07T08:28:38Z) - Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文 参考訳(メタデータ) (2022-09-29T11:24:33Z) - Few-shot Class-incremental Learning for 3D Point Cloud Objects [11.267975876074706]
FSCIL(Few-shot class-incremental Learning)は、新しいクラスのセットのためにベースクラスでトレーニングされたモデルを段階的に微調整することを目的としている。
FSCILの最近の取り組みは、主に2次元画像データに基づいてこの問題に対処している。
カメラ技術の進歩により、3Dポイントのクラウドデータがこれまで以上に利用できるようになった。
論文 参考訳(メタデータ) (2022-05-30T16:33:53Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。