論文の概要: Shape2Scene: 3D Scene Representation Learning Through Pre-training on Shape Data
- arxiv url: http://arxiv.org/abs/2407.10200v1
- Date: Sun, 14 Jul 2024 13:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:09:07.136281
- Title: Shape2Scene: 3D Scene Representation Learning Through Pre-training on Shape Data
- Title(参考訳): Shape2Scene: 形状データによる事前学習による3次元シーン表現学習
- Authors: Tuo Feng, Wenguan Wang, Ruijie Quan, Yi Yang,
- Abstract要約: Shape2Scene(S2S)は3次元形状データから大規模3次元シーンの表現を学習する新しい手法である。
MH-P/Vは、複数のスケールにわたる深い意味情報をキャプチャする高解像度機能への直接パスを確立する。
S2SSアマルガメートは様々な形状を指して、トレーニングデータのためのランダムな擬似シーン(複数のオブジェクトを含む)を作成する。
実験では,MH-P/Vで学習した3次元表現の形状レベルおよびシーンレベルの3次元タスク間での伝達性を示した。
- 参考スコア(独自算出の注目度): 61.36872381753621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current 3D self-supervised learning methods of 3D scenes face a data desert issue, resulting from the time-consuming and expensive collecting process of 3D scene data. Conversely, 3D shape datasets are easier to collect. Despite this, existing pre-training strategies on shape data offer limited potential for 3D scene understanding due to significant disparities in point quantities. To tackle these challenges, we propose Shape2Scene (S2S), a novel method that learns representations of large-scale 3D scenes from 3D shape data. We first design multiscale and high-resolution backbones for shape and scene level 3D tasks, i.e., MH-P (point-based) and MH-V (voxel-based). MH-P/V establishes direct paths to highresolution features that capture deep semantic information across multiple scales. This pivotal nature makes them suitable for a wide range of 3D downstream tasks that tightly rely on high-resolution features. We then employ a Shape-to-Scene strategy (S2SS) to amalgamate points from various shapes, creating a random pseudo scene (comprising multiple objects) for training data, mitigating disparities between shapes and scenes. Finally, a point-point contrastive loss (PPC) is applied for the pre-training of MH-P/V. In PPC, the inherent correspondence (i.e., point pairs) is naturally obtained in S2SS. Extensive experiments have demonstrated the transferability of 3D representations learned by MH-P/V across shape-level and scene-level 3D tasks. MH-P achieves notable performance on well-known point cloud datasets (93.8% OA on ScanObjectNN and 87.6% instance mIoU on ShapeNetPart). MH-V also achieves promising performance in 3D semantic segmentation and 3D object detection.
- Abstract(参考訳): 現在の3Dシーンの自己教師型学習手法は,3Dシーンデータの収集に要する時間と費用のかかるプロセスによって,データ砂漠の問題に直面している。
逆に、3D形状のデータセットの収集も容易である。
それにもかかわらず、形状データに関する既存の事前学習戦略は、点量にかなりの差異があるため、3次元のシーン理解に限られた可能性を秘めている。
これらの課題に対処するために,3次元形状データから大規模3次元シーンの表現を学習する新しい手法であるShape2Scene (S2S)を提案する。
まず,MH-P(ポイントベース)とMH-V(ボクセルベース)という,形状・シーンレベルの3Dタスクのためのマルチスケール・高解像度バックボーンを設計する。
MH-P/Vは、複数のスケールにわたる深い意味情報をキャプチャする高解像度機能への直接パスを確立する。
この重要な性質は、高解像度の機能に強く依存する広範囲な3D下流タスクに適している。
次に、様々な形状からポイントをアマルガメートするためにShape-to-Scene戦略(S2SS)を用い、ランダムな擬似シーン(複数のオブジェクトを構成する)を作成し、形状とシーンの相違を緩和する。
最後に、MH−P/Vの事前学習に点点コントラスト損失(PPC)を適用する。
PPCでは、固有の対応(すなわち点対)がS2SSで自然に得られる。
大規模実験により,MH-P/Vで学習した3次元表現が,形状レベルおよびシーンレベルの3次元タスク間で伝達可能であることが示された。
MH-Pはよく知られたポイントクラウドデータセット(ScanObjectNNでは93.8%のOA、ShapeNetPartでは87.6%のインスタンスmIoU)で顕著なパフォーマンスを実現している。
MH-Vはまた、3Dセマンティックセグメンテーションと3Dオブジェクト検出において有望な性能を達成する。
関連論文リスト
- U3DS$^3$: Unsupervised 3D Semantic Scene Segmentation [19.706172244951116]
本稿では,U3DS$3$について,総合的な3Dシーンに対して,完全に教師なしのポイントクラウドセグメンテーションに向けたステップとして提示する。
提案手法の最初のステップは,各シーンの幾何学的特徴に基づいてスーパーポイントを生成することである。
次に、空間クラスタリングに基づく手法を用いて学習プロセスを行い、次いで、クラスタセントロイドに応じて生成された擬似ラベルを用いて反復的なトレーニングを行う。
論文 参考訳(メタデータ) (2023-11-10T12:05:35Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文 参考訳(メタデータ) (2022-09-29T11:24:33Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。