論文の概要: Swin3D++: Effective Multi-Source Pretraining for 3D Indoor Scene
Understanding
- arxiv url: http://arxiv.org/abs/2402.14215v1
- Date: Thu, 22 Feb 2024 01:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:41:08.823739
- Title: Swin3D++: Effective Multi-Source Pretraining for 3D Indoor Scene
Understanding
- Title(参考訳): Swin3D++: 3次元屋内シーン理解のための効果的なマルチソース事前トレーニング
- Authors: Yu-Qi Yang and Yu-Xiao Guo and Yang Liu
- Abstract要約: Swin3D++は、マルチソースの3Dポイントクラウド上で効率的に事前トレーニングするためのSwing3Dに基づく拡張アーキテクチャである。
本研究では,3次元屋内シーンデータセット間のドメインの相違点を同定する。
我々は,事前学習データ量を増やし,教師付き事前学習を容易にするための簡易なソース拡張戦略を考案した。
- 参考スコア(独自算出の注目度): 12.17829071296421
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data diversity and abundance are essential for improving the performance and
generalization of models in natural language processing and 2D vision. However,
3D vision domain suffers from the lack of 3D data, and simply combining
multiple 3D datasets for pretraining a 3D backbone does not yield significant
improvement, due to the domain discrepancies among different 3D datasets that
impede effective feature learning. In this work, we identify the main sources
of the domain discrepancies between 3D indoor scene datasets, and propose
Swin3D++, an enhanced architecture based on Swin3D for efficient pretraining on
multi-source 3D point clouds. Swin3D++ introduces domain-specific mechanisms to
Swin3D's modules to address domain discrepancies and enhance the network
capability on multi-source pretraining. Moreover, we devise a simple
source-augmentation strategy to increase the pretraining data scale and
facilitate supervised pretraining. We validate the effectiveness of our design,
and demonstrate that Swin3D++ surpasses the state-of-the-art 3D pretraining
methods on typical indoor scene understanding tasks. Our code and models will
be released at https://github.com/microsoft/Swin3D
- Abstract(参考訳): データ多様性と豊富さは、自然言語処理と2次元視覚におけるモデルの性能と一般化を改善するために不可欠である。
しかし、3Dビジョンドメインは3Dデータの欠如に悩まされており、3Dバックボーンを事前トレーニングするために複数の3Dデータセットを組み合わせるだけでは、効果的な特徴学習を妨げる異なる3Dデータセット間のドメインの差異のため、大きな改善は得られない。
本研究では,3次元屋内シーンデータセット間のドメイン不一致の主な原因を特定し,Swin3Dをベースとした拡張アーキテクチャであるSwin3D++を提案する。
Swin3D++はSwin3Dのモジュールにドメイン固有のメカニズムを導入し、ドメインの相違に対処し、マルチソース事前トレーニングにおけるネットワーク機能を強化する。
さらに,事前学習データ量を増やし,教師付き事前学習を容易にするための簡易なソース拡張戦略を考案した。
提案手法の有効性を検証し,Swin3D++が屋内シーン理解タスクにおける最先端の3D事前学習手法を超えることを示す。
私たちのコードとモデルはhttps://github.com/microsoft/Swin3Dでリリースされます。
関連論文リスト
- P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders [32.85484320025852]
本研究では,画像から持ち上げた実データと擬似3Dデータを利用した自己教師付き事前学習フレームワークを,大深度推定モデルにより提案する。
提案手法は,3次元分類および少数ショット学習における最先端性能を高い事前学習と下流微調整効率を維持しながら達成する。
論文 参考訳(メタデータ) (2024-08-19T13:59:53Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。