論文の概要: Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2406.11283v1
- Date: Mon, 17 Jun 2024 07:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 17:54:42.275808
- Title: Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding
- Title(参考訳): データ効率のよい3次元シーン理解のための表現学習の一般化性向上
- Authors: Yunsong Wang, Na Zhao, Gim Hee Lee,
- Abstract要約: 本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
- 参考スコア(独自算出の注目度): 50.448520056844885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of self-supervised 3D representation learning has emerged as a promising solution to alleviate the challenge presented by the scarcity of extensive, well-annotated datasets. However, it continues to be hindered by the lack of diverse, large-scale, real-world 3D scene datasets for source data. To address this shortfall, we propose Generalizable Representation Learning (GRL), where we devise a generative Bayesian network to produce diverse synthetic scenes with real-world patterns, and conduct pre-training with a joint objective. By jointly learning a coarse-to-fine contrastive learning task and an occlusion-aware reconstruction task, the model is primed with transferable, geometry-informed representations. Post pre-training on synthetic data, the acquired knowledge of the model can be seamlessly transferred to two principal downstream tasks associated with 3D scene understanding, namely 3D object detection and 3D semantic segmentation, using real-world benchmark datasets. A thorough series of experiments robustly display our method's consistent superiority over existing state-of-the-art pre-training approaches.
- Abstract(参考訳): 自己教師型3D表現学習の分野は、広範に注釈が付けられたデータセットの不足によってもたらされる課題を軽減するための、有望な解決策として現れてきた。
しかし、ソースデータのための多種多様な、大規模で現実世界の3Dシーンデータセットが欠如しているため、それは引き続き妨げられている。
この欠点に対処するために、我々は生成ベイズネットワークを考案し、実世界のパターンを持つ多様な合成シーンを作成し、共同で事前学習を行うGRL(Generalizable Representation Learning)を提案する。
粗大なコントラスト学習タスクとオクルージョン認識再構築タスクを共同で学習することにより、モデルは転送可能で幾何学的インフォームド表現で推定される。
合成データの事前トレーニング後、取得したモデルの知識は、実世界のベンチマークデータセットを使用して、3Dオブジェクト検出と3Dセマンティックセグメンテーションという3Dシーン理解に関連する2つの主要な下流タスクにシームレスに転送することができる。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - Info3D: Representation Learning on 3D Objects using Mutual Information
Maximization and Contrastive Learning [8.448611728105513]
本稿では,3次元形状に関するInfoMaxと対照的な学習原理を拡張することを提案する。
我々は3Dオブジェクトとその「チャンク」間の相互情報を最大化して、整列したデータセットにおける表現を改善することができることを示す。
論文 参考訳(メタデータ) (2020-06-04T00:30:26Z) - Joint Supervised and Self-Supervised Learning for 3D Real-World
Challenges [16.328866317851187]
ポイントクラウド処理と3D形状理解は、ディープラーニング技術が大きな可能性を実証する難しいタスクである。
ここでは、データ不足と大きなドメインギャップにより教師付き学習が失敗する合成および実世界の点雲を含むいくつかのシナリオについて考察する。
形状分類や部分分割の主課題を学習しながら3次元パズルを解くマルチタスクモデルにより、自己超越を利用して、標準的な特徴表現を豊かにすることを提案する。
論文 参考訳(メタデータ) (2020-04-15T23:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。