論文の概要: Attention-Guided Multi-Scale Local Reconstruction for Point Clouds via Masked Autoencoder Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2507.04084v1
- Date: Sat, 05 Jul 2025 16:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.008353
- Title: Attention-Guided Multi-Scale Local Reconstruction for Point Clouds via Masked Autoencoder Self-Supervised Learning
- Title(参考訳): Masked Autoencoder Self-Supervised Learning による点群に対する注意誘導型マルチスケール局所再構成
- Authors: Xin Cao, Haoyu Wang, Yuzhu Mao, Xinda Liu, Linzhi Su, Kang Li,
- Abstract要約: 我々は,ポイントクラウド処理のための新しい自己教師型学習フレームワークであるPointAMaLRを紹介する。
PointAMaLRは複数の局所領域にまたがる階層的再構成を実装している。
ベンチマークデータセットの実験では、PointAMaLRの分類タスクと再構成タスクの両方において、精度と品質が優れていることが示されている。
- 参考スコア(独自算出の注目度): 9.390627399366833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has emerged as a prominent research direction in point cloud processing. While existing models predominantly concentrate on reconstruction tasks at higher encoder layers, they often neglect the effective utilization of low-level local features, which are typically employed solely for activation computations rather than directly contributing to reconstruction tasks. To overcome this limitation, we introduce PointAMaLR, a novel self-supervised learning framework that enhances feature representation and processing accuracy through attention-guided multi-scale local reconstruction. PointAMaLR implements hierarchical reconstruction across multiple local regions, with lower layers focusing on fine-scale feature restoration while upper layers address coarse-scale feature reconstruction, thereby enabling complex inter-patch interactions. Furthermore, to augment feature representation capabilities, we incorporate a Local Attention (LA) module in the embedding layer to enhance semantic feature understanding. Comprehensive experiments on benchmark datasets ModelNet and ShapeNet demonstrate PointAMaLR's superior accuracy and quality in both classification and reconstruction tasks. Moreover, when evaluated on the real-world dataset ScanObjectNN and the 3D large scene segmentation dataset S3DIS, our model achieves highly competitive performance metrics. These results not only validate PointAMaLR's effectiveness in multi-scale semantic understanding but also underscore its practical applicability in real-world scenarios.
- Abstract(参考訳): 自己教師型学習は、ポイントクラウド処理における顕著な研究方向として現れている。
既存のモデルは、主に高エンコーダ層における再構築タスクに集中しているが、多くの場合、リコンストラクションタスクに直接貢献するのではなく、アクティベーション計算にのみ使用される低レベルの局所的特徴の有効利用を無視する。
この制限を克服するために、注意誘導型マルチスケール局所再構成による特徴表現と処理精度を向上させる新しい自己教師型学習フレームワークであるPointAMaLRを導入する。
PointAMaLRは複数の局所領域にまたがる階層的再構成を実装しており、下位層は微細な特徴回復に焦点をあて、上位層は粗い特徴再構成に対処し、複雑なパッチ間相互作用を可能にする。
さらに、特徴表現能力を増強するために、意味的特徴理解を強化するために、埋め込み層にLocal Attention (LA)モジュールを組み込む。
ModelNetとShapeNetのベンチマークデータセットに関する総合的な実験では、分類タスクと再構成タスクの両方においてPointAMaLRの優れた精度と品質が示されている。
さらに,実世界のデータセットScanObjectNNと3次元大規模シーンセグメンテーションデータセットS3DISで評価すると,高い競合性能の指標が得られる。
これらの結果は,マルチスケールセマンティック理解におけるPointAMaLRの有効性を検証するだけでなく,実世界のシナリオにおける実用性を評価する。
関連論文リスト
- Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - KAN or MLP? Point Cloud Shows the Way Forward [13.669234791655075]
我々は、クラウド分析タスクにKAN(Kolmogorov-Arnold Learning Networks)を適用したPointKANを提案する。
我々は、ModelNet40、ScanNN、ShapeNetPartなどのベンチマークデータセットにおいて、PointKANがPointMLPより優れていることを示す。
この研究は、3Dビジョンにおけるkansベースのアーキテクチャの可能性を強調し、ポイントクラウド理解における研究のための新たな道を開く。
論文 参考訳(メタデータ) (2025-04-18T09:52:22Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Point Tree Transformer for Point Cloud Registration [33.00645881490638]
ポイントクラウド登録は、コンピュータビジョンとロボティクスの分野における基本的なタスクである。
本稿では,局所的特徴とグローバルな特徴を効率的に抽出する,ポイントクラウド登録のためのトランスフォーマーベースの新しいアプローチを提案する。
本手法は最先端の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-25T13:14:26Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。