論文の概要: Towards Large-scale 3D Representation Learning with Multi-dataset Point
Prompt Training
- arxiv url: http://arxiv.org/abs/2308.09718v1
- Date: Fri, 18 Aug 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:10:23.236459
- Title: Towards Large-scale 3D Representation Learning with Multi-dataset Point
Prompt Training
- Title(参考訳): マルチデータセット・ポイント・プロンプト・トレーニングによる大規模3次元表現学習に向けて
- Authors: Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng
Yu, Hengshuang Zhao
- Abstract要約: ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 47.036695270944946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of deep learning models often attributes to their
ability to leverage massive training data. In contrast, such privilege has not
yet fully benefited 3D deep learning, mainly due to the limited availability of
large-scale 3D datasets. Merging multiple available data sources and letting
them collaboratively train a single model is a potential solution. However, due
to the large domain gap between 3D point cloud datasets, such mixed supervision
could adversely affect the model's performance and lead to degenerated
performance (i.e., negative transfer) compared to single-dataset training. In
view of this challenge, we introduce Point Prompt Training (PPT), a novel
framework for multi-dataset synergistic learning in the context of 3D
representation learning that supports multiple pre-training paradigms. Based on
this framework, we propose Prompt-driven Normalization, which adapts the model
to different datasets with domain-specific prompts and Language-guided
Categorical Alignment that decently unifies the multiple-dataset label spaces
by leveraging the relationship between label text. Extensive experiments verify
that PPT can overcome the negative transfer associated with synergistic
learning and produce generalizable representations. Notably, it achieves
state-of-the-art performance on each dataset using a single weight-shared model
with supervised multi-dataset training. Moreover, when served as a pre-training
framework, it outperforms other pre-training approaches regarding
representation quality and attains remarkable state-of-the-art performance
across over ten diverse downstream tasks spanning both indoor and outdoor 3D
scenarios.
- Abstract(参考訳): ディープラーニングモデルの急速な進歩は、大規模なトレーニングデータを活用する能力にしばしば寄与する。
対照的に、このような特権はまだ大規模な3dデータセットの可用性が限られているため、3dディープラーニングを完全には活用できていない。
複数の利用可能なデータソースをマージして、ひとつのモデルを協調的にトレーニングすることは、潜在的な解決策です。
しかし、3Dポイントクラウドデータセット間の大きなドメインギャップのため、このような混在した監視はモデルの性能に悪影響を及ぼし、単一データセットのトレーニングに比べて劣化したパフォーマンス(負の転送)につながる可能性がある。
この課題を考慮したPPT(Point Prompt Training)は,複数の事前学習パラダイムをサポートする3次元表現学習において,マルチデータセットのシナジスティック学習のための新しいフレームワークである。
本稿では、ドメイン固有のプロンプトを持つ異なるデータセットにモデルを適応させるPrompt-driven Normalizationと、ラベルテキスト間の関係を利用して、複数データセットのラベル空間を適切に統一するLanguage-Guided Categorical Alignmentを提案する。
広範な実験により、pptは相乗的学習に伴う負の伝達を克服し、一般化可能な表現を生成することができる。
特に、教師付きマルチデータセットトレーニングを備えた単一の重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
さらに、事前学習フレームワークとして機能する場合には、表現品質に関する他のトレーニング済みアプローチよりも優れており、屋内および屋外の両方の3Dシナリオにまたがる10以上の下流タスクにおいて、最先端のパフォーマンスを達成することができる。
関連論文リスト
- Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。
マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。
ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文 参考訳(メタデータ) (2024-09-30T17:57:50Z) - Automated Label Unification for Multi-Dataset Semantic Segmentation with GNNs [48.406728896785296]
本稿では,グラフニューラルネットワークを用いて,複数のデータセットにまたがる統一ラベル空間を自動構築する手法を提案する。
従来の手法と異なり,本手法は手動の注釈や分類の調整を必要とせず,シームレスな訓練を容易にする。
論文 参考訳(メタデータ) (2024-07-15T08:42:10Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection [34.2238222373818]
現在の3Dオブジェクト検出モデルは、単一のデータセット固有のトレーニングとテストのパラダイムに従っている。
本稿では,複数のデータセットから統合された3次元検出器を訓練する作業について検討する。
単純なデータレベルの修正操作と設計された意味レベルの結合・再結合モジュールを利用するUni3Dを提案する。
論文 参考訳(メタデータ) (2023-03-13T05:54:13Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。