論文の概要: M$^3$CS: Multi-Target Masked Point Modeling with Learnable Codebook and
Siamese Decoders
- arxiv url: http://arxiv.org/abs/2309.13235v1
- Date: Sat, 23 Sep 2023 02:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:11:47.813766
- Title: M$^3$CS: Multi-Target Masked Point Modeling with Learnable Codebook and
Siamese Decoders
- Title(参考訳): M$^3$CS:学習可能なコードブックとシームズデコーダを用いたマルチターゲットマスキングポイントモデリング
- Authors: Qibo Qiu, Honghui Yang, Wenxiao Wang, Shun Zhang, Haiming Gao, Haochao
Ying, Wei Hua, Xiaofei He
- Abstract要約: マスク付き点モデリングは、点雲の自己教師型事前学習の有望なスキームとなっている。
M$3$CSは上記の能力を持つモデルを可能にするために提案されている。
- 参考スコア(独自算出の注目度): 19.68592678093725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked point modeling has become a promising scheme of self-supervised
pre-training for point clouds. Existing methods reconstruct either the original
points or related features as the objective of pre-training. However,
considering the diversity of downstream tasks, it is necessary for the model to
have both low- and high-level representation modeling capabilities to capture
geometric details and semantic contexts during pre-training. To this end,
M$^3$CS is proposed to enable the model with the above abilities. Specifically,
with masked point cloud as input, M$^3$CS introduces two decoders to predict
masked representations and the original points simultaneously. While an extra
decoder doubles parameters for the decoding process and may lead to
overfitting, we propose siamese decoders to keep the amount of learnable
parameters unchanged. Further, we propose an online codebook projecting
continuous tokens into discrete ones before reconstructing masked points. In
such way, we can enforce the decoder to take effect through the combinations of
tokens rather than remembering each token. Comprehensive experiments show that
M$^3$CS achieves superior performance at both classification and segmentation
tasks, outperforming existing methods.
- Abstract(参考訳): マスク付き点モデリングは、点雲の自己教師型事前学習の有望なスキームとなっている。
既存の方法は、事前学習の目的として原点または関連特徴を再構築する。
しかし、下流タスクの多様性を考慮すると、事前学習中に幾何学的詳細や意味的文脈を捉えるために、低レベルかつ高レベルな表現モデリング機能を持つ必要がある。
この目的のために、M$^3$CS は上記の能力を持つモデルを可能にするために提案される。
具体的には、マスキングポイントクラウドを入力として、m$^3$csは2つのデコーダを導入し、マスクされた表現と元の点を同時に予測する。
余分なデコーダはデコードプロセスのパラメータを2倍にし、オーバーフィッティングにつながる可能性があるが、学習可能なパラメータの量を一定に抑えるためにシムデコーダを提案する。
さらに,マスキングポイントを再構築する前に,連続トークンを個別に投影するオンラインコードブックを提案する。
このようにして、デコーダは各トークンを記憶するのではなく、トークンの組み合わせを通じて効果を発揮することができる。
総合的な実験により、M$^3$CSは分類タスクとセグメンテーションタスクの両方において優れた性能を示し、既存の手法よりも優れていた。
関連論文リスト
- PointMamba: A Simple State Space Model for Point Cloud Analysis [61.93962505128706]
本稿では,大域的モデリングと線形複雑度を考慮したフレームワークであるPointMambaを提案する。
組込み点パッチを入力として,SSMのグローバルモデリング能力を高めるための並べ替え戦略を提案する。
実験の結果,提案したPointMambaは,異なるポイントクラウド分析データセット上で,トランスフォーマーをベースとした性能よりも優れていた。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - General Point Model with Autoencoding and Autoregressive [55.051626723729896]
本稿では,ポイントクラウドトランスにおける自動エンコーディングと自己回帰タスクをシームレスに統合する汎用ポイントモデルを提案する。
このモデルは汎用性が高く、ダウンストリームポイントクラウド表現タスクの微調整や、条件なしおよび条件付き生成タスクが可能である。
論文 参考訳(メタデータ) (2023-10-25T06:08:24Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - GeoMAE: Masked Geometric Target Prediction for Self-supervised Point
Cloud Pre-Training [16.825524577372473]
幾何学的特徴再構成に基づくポイントクラウド表現学習フレームワークを提案する。
我々は,3つの自己教師型学習目標を特異点雲,すなわちセントロイド予測,正規推定,曲率予測と同定する。
私たちのパイプラインは概念的にはシンプルで、まずポイントのグループをランダムにマスキングし、次にTransformerベースのポイントクラウドエンコーダという2つの大きなステップで構成されています。
論文 参考訳(メタデータ) (2023-05-15T17:14:55Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文 参考訳(メタデータ) (2023-01-09T18:59:50Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。