論文の概要: Towards Large-scale 3D Representation Learning with Multi-dataset Point
Prompt Training
- arxiv url: http://arxiv.org/abs/2308.09718v1
- Date: Fri, 18 Aug 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:10:23.236459
- Title: Towards Large-scale 3D Representation Learning with Multi-dataset Point
Prompt Training
- Title(参考訳): マルチデータセット・ポイント・プロンプト・トレーニングによる大規模3次元表現学習に向けて
- Authors: Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng
Yu, Hengshuang Zhao
- Abstract要約: ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 47.036695270944946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of deep learning models often attributes to their
ability to leverage massive training data. In contrast, such privilege has not
yet fully benefited 3D deep learning, mainly due to the limited availability of
large-scale 3D datasets. Merging multiple available data sources and letting
them collaboratively train a single model is a potential solution. However, due
to the large domain gap between 3D point cloud datasets, such mixed supervision
could adversely affect the model's performance and lead to degenerated
performance (i.e., negative transfer) compared to single-dataset training. In
view of this challenge, we introduce Point Prompt Training (PPT), a novel
framework for multi-dataset synergistic learning in the context of 3D
representation learning that supports multiple pre-training paradigms. Based on
this framework, we propose Prompt-driven Normalization, which adapts the model
to different datasets with domain-specific prompts and Language-guided
Categorical Alignment that decently unifies the multiple-dataset label spaces
by leveraging the relationship between label text. Extensive experiments verify
that PPT can overcome the negative transfer associated with synergistic
learning and produce generalizable representations. Notably, it achieves
state-of-the-art performance on each dataset using a single weight-shared model
with supervised multi-dataset training. Moreover, when served as a pre-training
framework, it outperforms other pre-training approaches regarding
representation quality and attains remarkable state-of-the-art performance
across over ten diverse downstream tasks spanning both indoor and outdoor 3D
scenarios.
- Abstract(参考訳): ディープラーニングモデルの急速な進歩は、大規模なトレーニングデータを活用する能力にしばしば寄与する。
対照的に、このような特権はまだ大規模な3dデータセットの可用性が限られているため、3dディープラーニングを完全には活用できていない。
複数の利用可能なデータソースをマージして、ひとつのモデルを協調的にトレーニングすることは、潜在的な解決策です。
しかし、3Dポイントクラウドデータセット間の大きなドメインギャップのため、このような混在した監視はモデルの性能に悪影響を及ぼし、単一データセットのトレーニングに比べて劣化したパフォーマンス(負の転送)につながる可能性がある。
この課題を考慮したPPT(Point Prompt Training)は,複数の事前学習パラダイムをサポートする3次元表現学習において,マルチデータセットのシナジスティック学習のための新しいフレームワークである。
本稿では、ドメイン固有のプロンプトを持つ異なるデータセットにモデルを適応させるPrompt-driven Normalizationと、ラベルテキスト間の関係を利用して、複数データセットのラベル空間を適切に統一するLanguage-Guided Categorical Alignmentを提案する。
広範な実験により、pptは相乗的学習に伴う負の伝達を克服し、一般化可能な表現を生成することができる。
特に、教師付きマルチデータセットトレーニングを備えた単一の重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
さらに、事前学習フレームワークとして機能する場合には、表現品質に関する他のトレーニング済みアプローチよりも優れており、屋内および屋外の両方の3Dシナリオにまたがる10以上の下流タスクにおいて、最先端のパフォーマンスを達成することができる。
関連論文リスト
- UniLiDAR: Bridge the domain gap among different LiDARs for continual
learning [10.10834581581264]
本稿では,異なるLiDARを扱える統一モデルを開発することを目的とする。
幾何的配向とセマンティックラベルマッピングを利用した占有予測パイプラインUniLiDARを提案する。
UniLiDARは、直接マージされたデータセットでトレーニングされたモデルと比較して、占有率予測のmIoUをそれぞれ15.7%、12.5%上昇させる。
論文 参考訳(メタデータ) (2024-03-13T13:23:05Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous
Driving [84.22159537581742]
職業予測は一般表現の学習に有望であることが示されている。
SPOTは、ポイントクラウド拡張にビーム再サンプリング技術を使用し、クラスバランス戦略を適用している。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection [34.2238222373818]
現在の3Dオブジェクト検出モデルは、単一のデータセット固有のトレーニングとテストのパラダイムに従っている。
本稿では,複数のデータセットから統合された3次元検出器を訓練する作業について検討する。
単純なデータレベルの修正操作と設計された意味レベルの結合・再結合モジュールを利用するUni3Dを提案する。
論文 参考訳(メタデータ) (2023-03-13T05:54:13Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Multi-Task Self-Training for Learning General Representations [97.01728635294879]
マルチタスク・セルフトレーニング(MuST)は、独立した専門教師モデルにおける知識を活用して、一人の一般学生モデルを訓練する。
MuSTはラベルなしまたは部分的にラベル付けされたデータセットでスケーラブルで、大規模データセットのトレーニングにおいて、特別な教師付きモデルとセルフ教師付きモデルの両方を上回っている。
論文 参考訳(メタデータ) (2021-08-25T17:20:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。