論文の概要: Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs
- arxiv url: http://arxiv.org/abs/2603.04099v1
- Date: Wed, 04 Mar 2026 14:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.340657
- Title: Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs
- Title(参考訳): 高次元位置符号化と非局所MLPを用いた効率的なポイントクラウド処理
- Authors: Yanmei Zou, Hongshan Yu, Yaonan Wang, Zhengeng Yang, Xieyuanli Chen, Kailun Yang, Naveed Akhtar,
- Abstract要約: ポイントクラウド処理におけるモジュラー特徴抽出のための2段階の抽象化・改善(ABSREF)ビューを開発する。
位置情報を明示的に活用するためのHPE(High-stage Positional)モジュールを提案する。
ABSREFの視点では、関係における局所的な集約を再考し、時間を要する局所的な操作を置き換えることを提案する。
- 参考スコア(独自算出の注目度): 68.55902504866422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Layer Perceptron (MLP) models are the foundation of contemporary point cloud processing. However, their complex network architectures obscure the source of their strength and limit the application of these models. In this article, we develop a two-stage abstraction and refinement (ABS-REF) view for modular feature extraction in point cloud processing. This view elucidates that whereas the early models focused on ABS stages, the more recent techniques devise sophisticated REF stages to attain performance advantages. Then, we propose a High-dimensional Positional Encoding (HPE) module to explicitly utilize intrinsic positional information, extending the ``positional encoding'' concept from Transformer literature. HPE can be readily deployed in MLP-based architectures and is compatible with transformer-based methods. Within our ABS-REF view, we rethink local aggregation in MLP-based methods and propose replacing time-consuming local MLP operations, which are used to capture local relationships among neighbors. Instead, we use non-local MLPs for efficient non-local information updates, combined with the proposed HPE for effective local information representation. We leverage our modules to develop HPENets, a suite of MLP networks that follow the ABS-REF paradigm, incorporating a scalable HPE-based REF stage. Extensive experiments on seven public datasets across four different tasks show that HPENets deliver a strong balance between efficiency and effectiveness. Notably, HPENet surpasses PointNeXt, a strong MLP-based counterpart, by 1.1% mAcc, 4.0% mIoU, 1.8% mIoU, and 0.2% Cls. mIoU, with only 50.0%, 21.5%, 23.1%, 44.4% of FLOPs on ScanObjectNN, S3DIS, ScanNet, and ShapeNetPart, respectively. Source code is available at https://github.com/zouyanmei/HPENet_v2.git.
- Abstract(参考訳): MLP(Multi-Layer Perceptron)モデルは、現代のクラウド処理の基礎である。
しかし、それらの複雑なネットワークアーキテクチャは、その強みの源を曖昧にし、これらのモデルの適用を制限する。
本稿では、ポイントクラウド処理におけるモジュラー特徴抽出のための2段階の抽象化・改善(ABS-REF)ビューを開発する。
この見解は、初期のモデルはABSステージに焦点を当てていたが、より最近の技術は、パフォーマンス上の優位性を得るために洗練されたREFステージを考案した。
そこで,本研究では,「位置符号化」の概念をトランスフォーマー文学から拡張し,内在的位置情報を明示的に活用する高次元位置符号化(HPE)モジュールを提案する。
HPEはMPPベースのアーキテクチャで容易にデプロイでき、トランスフォーマーベースのメソッドと互換性がある。
ABS-REF ビューでは,ローカルアグリゲーションを MLP ベースの手法で再考し,近隣住民のローカルな関係を捉えるために使用される,時間を要するローカルな MLP 操作の置き換えを提案する。
代わりに、効率的なローカル情報更新に非ローカルMPPを使用し、効率的なローカル情報表現に提案されたHPEと組み合わせる。
ABS-REFパラダイムに従い、スケーラブルなHPEベースのREFステージを組み込んだMLPネットワークスイートであるHPENetsを開発するために、当社のモジュールを活用している。
4つの異なるタスクにわたる7つの公開データセットに関する大規模な実験は、HPENetsが効率と有効性の間に強いバランスを提供することを示している。
特に、HPENetは強力なMLPベースのPointNeXtを1.1% mAcc、4.0% mIoU、1.8% mIoU、0.2% Clsで上回っている。
mIoUは、ScanObjectNN、S3DIS、ScanNet、ShapeNetPartのFLOPのわずか50.0%、21.5%、23.1%、44.4%である。
ソースコードはhttps://github.com/zouyanmei/HPENet_v2.gitで入手できる。
関連論文リスト
- Strip-MLP: Efficient Token Interaction for Vision MLP [31.02197585697145]
textbfStrip-MLPを導入し,トークン間相互作用を3つの方法で強化する。
Strip-MLPは、小さなデータセット上での空間モデルの性能を大幅に改善する。
CIFAR-100ではCaltech-101では+2.44%、CIFAR-100では+2.16%である。
論文 参考訳(メタデータ) (2023-07-21T09:40:42Z) - MLP Fusion: Towards Efficient Fine-tuning of Dense and Mixture-of-Experts Language Models [33.86069537521178]
訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。
微調整に特化して設計されたワンショット圧縮技術を提案する。
論文 参考訳(メタデータ) (2023-07-18T03:12:51Z) - Rethinking Network Design and Local Geometry in Point Cloud: A Simple
Residual MLP Framework [55.40001810884942]
我々は、洗練された局所幾何学的抽出器を組み込んだ純粋な残留ネットワークPointMLPを導入するが、それでも非常に競争力がある。
実世界のScanObjectNNデータセットでは,従来のベストメソッドを3.3%の精度で上回ります。
最新のCurveNetと比較して、PointMLPは2倍速く、テストは7倍速く、ModelNet40ベンチマークではより正確である。
論文 参考訳(メタデータ) (2022-02-15T01:39:07Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。