論文の概要: PointGAC: Geometric-Aware Codebook for Masked Point Cloud Modeling
- arxiv url: http://arxiv.org/abs/2507.04801v1
- Date: Mon, 07 Jul 2025 09:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.351074
- Title: PointGAC: Geometric-Aware Codebook for Masked Point Cloud Modeling
- Title(参考訳): PointGAC: Masked Point Cloud Modelingのための幾何学的認識コードブック
- Authors: Abiao Li, Chenlei Lv, Yuming Fang, Yifan Zuo, Jian Zhang, Guofeng Mei,
- Abstract要約: 仮面クラウドモデリング(MPM)手法は、マスクされた領域の詳細を学習するためにモデルを過剰に制約する傾向がある。
マスク領域の特徴分布の整合化を目的とした,クラスタリングに基づく新しいMPM手法である textbftextitPointGAC を提案する。
- 参考スコア(独自算出の注目度): 33.72549134362884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most masked point cloud modeling (MPM) methods follow a regression paradigm to reconstruct the coordinate or feature of masked regions. However, they tend to over-constrain the model to learn the details of the masked region, resulting in failure to capture generalized features. To address this limitation, we propose \textbf{\textit{PointGAC}}, a novel clustering-based MPM method that aims to align the feature distribution of masked regions. Specially, it features an online codebook-guided teacher-student framework. Firstly, it presents a geometry-aware partitioning strategy to extract initial patches. Then, the teacher model updates a codebook via online k-means based on features extracted from the complete patches. This procedure facilitates codebook vectors to become cluster centers. Afterward, we assigns the unmasked features to their corresponding cluster centers, and the student model aligns the assignment for the reconstructed masked features. This strategy focuses on identifying the cluster centers to which the masked features belong, enabling the model to learn more generalized feature representations. Benefiting from a proposed codebook maintenance mechanism, codebook vectors are actively updated, which further increases the efficiency of semantic feature learning. Experiments validate the effectiveness of the proposed method on various downstream tasks. Code is available at https://github.com/LAB123-tech/PointGAC
- Abstract(参考訳): 多くのマスク付きポイントクラウドモデリング(MPM)手法は、マスク付き領域の座標や特徴を再構成するための回帰パラダイムに従う。
しかし、彼らはマスクされた領域の詳細を学習するためにモデルを過度に制約する傾向にあり、その結果、一般化された特徴を捉えられなかった。
この制限に対処するために,マスク付き領域の特徴分布の整合化を目的とした,クラスタリングに基づく新しいMPM法である \textbf{\textit{PointGAC}} を提案する。
とくに、オンラインのコードブックで指導される教師/学生のためのフレームワークが特徴だ。
まず、初期パッチを抽出するジオメトリ対応のパーティショニング戦略を示す。
そして、教師モデルは、完全なパッチから抽出された機能に基づいて、オンラインk-meansを介してコードブックを更新する。
この手順により、コードブックベクトルはクラスタセンターになる。
その後, 学生モデルでは, マスクを付けない特徴を対応するクラスタセンターに割り当て, 再構成した特徴の割り当てを整列する。
この戦略は、マスキングされた特徴が属するクラスタセンターを特定することに焦点を当て、モデルがより一般化された特徴表現を学習できるようにする。
提案されたコードブックのメンテナンスメカニズムから恩恵を受け、コードブックベクターは積極的に更新され、セマンティックな特徴学習の効率がさらに向上する。
提案手法の有効性を検証する実験を行った。
コードはhttps://github.com/LAB123-tech/PointGACで公開されている。
関連論文リスト
- MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - Dynamic Pseudo Label Optimization in Point-Supervised Nuclei Segmentation [17.698430642075813]
我々は、textbfDynamic pseudo label textbfOptimization in point-supervised textbfNuclei textbfSegmentation を実現するDoNuSegというフレームワークを提案する。
DoNuSegは、クラスアクティベーションマップ(CAM)を利用して、アノテーション付きポイントに似た意味を持つ領域を適応的にキャプチャする。
論文 参考訳(メタデータ) (2024-06-24T08:20:53Z) - GeoMask3D: Geometrically Informed Mask Selection for Self-Supervised Point Cloud Learning in 3D [18.33878596057853]
ポイントクラウドのための自己教師型学習に先駆的なアプローチを導入する。
我々は、Masked Autosの効率を高めるためにGeoMask3D(GM3D)と呼ばれる幾何学的に情報を得たマスク選択戦略を採用した。
論文 参考訳(メタデータ) (2024-05-20T23:53:42Z) - CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud
Semantic Segmentation [60.0893353960514]
疎アノテーションを用いた弱教師付きポイントクラウドセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では,地域マスキング(RegionMask)戦略とコンテキストマスキングトレーニング(CMT)手法の2つの部分からなるコンテキストポイントクラウドモデリング(CPCM)手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T04:41:18Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Learning Class-Agnostic Pseudo Mask Generation for Box-Supervised
Semantic Segmentation [156.9155100983315]
ボックス教師付きセマンティクスセグメンテーションに合わせた,より正確な学習ベースのクラス非依存な擬似マスクジェネレータを求める。
この方法は、ボックス監視モデルとフル監視モデルの間のパフォーマンスギャップをさらに埋めることができます。
論文 参考訳(メタデータ) (2021-03-09T14:54:54Z) - KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T21:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。