論文の概要: Soft Masked Transformer for Point Cloud Processing with Skip Attention-Based Upsampling
- arxiv url: http://arxiv.org/abs/2403.14124v1
- Date: Thu, 21 Mar 2024 04:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 15:27:06.133666
- Title: Soft Masked Transformer for Point Cloud Processing with Skip Attention-Based Upsampling
- Title(参考訳): スキップアテンションに基づくアップサンプリングによるポイントクラウド処理のためのソフトマスク変換器
- Authors: Yong He, Hongshan Yu, Muhammad Ibrahim, Xiaoyan Liu, Tongjia Chen, Anwaar Ulhaq, Ajmal Mian,
- Abstract要約: 我々は、タスクレベルの情報をエンコードステージに統合することで、パフォーマンスが大幅に向上すると主張している。
符号化層と復号層の機能間の効果的な通信を容易にするために,スキップアテンションに基づくアップサンプリングブロックを導入する。
S3DISエリア5では73.4% mIoU、SWANデータセットでは62.4% mIoUである。
- 参考スコア(独自算出の注目度): 28.218242268501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point cloud processing methods leverage local and global point features %at the feature level to cater to downstream tasks, yet they often overlook the task-level context inherent in point clouds during the encoding stage. We argue that integrating task-level information into the encoding stage significantly enhances performance. To that end, we propose SMTransformer which incorporates task-level information into a vector-based transformer by utilizing a soft mask generated from task-level queries and keys to learn the attention weights. Additionally, to facilitate effective communication between features from the encoding and decoding layers in high-level tasks such as segmentation, we introduce a skip-attention-based up-sampling block. This block dynamically fuses features from various resolution points across the encoding and decoding layers. To mitigate the increase in network parameters and training time resulting from the complexity of the aforementioned blocks, we propose a novel shared position encoding strategy. This strategy allows various transformer blocks to share the same position information over the same resolution points, thereby reducing network parameters and training time without compromising accuracy.Experimental comparisons with existing methods on multiple datasets demonstrate the efficacy of SMTransformer and skip-attention-based up-sampling for point cloud processing tasks, including semantic segmentation and classification. In particular, we achieve state-of-the-art semantic segmentation results of 73.4% mIoU on S3DIS Area 5 and 62.4% mIoU on SWAN dataset
- Abstract(参考訳): ポイントクラウド処理メソッドは、機能レベル%のローカルおよびグローバルなポイント機能を活用して、下流のタスクに対応しますが、エンコーディング段階ではポイントクラウドに固有のタスクレベルのコンテキストを見落とします。
我々は、タスクレベルの情報をエンコードステージに統合することで、パフォーマンスが大幅に向上すると主張している。
そこで本研究では,タスクレベルのクエリとキーから発生するソフトマスクを利用して,タスクレベルの情報をベクトルベースの変換器に組み込むSMTransformerを提案する。
さらに,セグメンテーションなどの高レベルタスクにおける符号化層と復号層の機能間の効果的な通信を容易にするために,スキップアテンションに基づくアップサンプリングブロックを導入する。
このブロックは、エンコーディング層とデコード層にまたがる様々な解像度ポイントから機能を動的に融合する。
上記のブロックの複雑さによるネットワークパラメータの増加とトレーニング時間を緩和するために,新しい共有位置符号化戦略を提案する。
この戦略により、様々なトランスフォーマーブロックが同一の解像度ポイント上で同じ位置情報を共有することができ、それによってネットワークパラメータとトレーニング時間を精度を損なうことなく削減することができる。
特に、S3DISエリア5では73.4% mIoU、SWANデータセットでは62.4% mIoUの最先端セマンティックセマンティックセマンティックセグメンテーション結果を得る。
関連論文リスト
- Laser: Efficient Language-Guided Segmentation in Neural Radiance Fields [49.66011190843893]
本稿では,CLIP特徴蒸留を利用して,言語指導による効率的な3次元セグメンテーションを実現する手法を提案する。
これを実現するために,我々は,高密度CLIP特徴蒸留プロセスにおいて,アダプタモジュールを導入し,ノイズ問題を緩和する。
本手法は, 訓練速度と性能の両面で, 現在の最先端技術を上回っている。
論文 参考訳(メタデータ) (2025-01-31T12:19:14Z) - CS-Net:Contribution-based Sampling Network for Point Cloud Simplification [50.55658910053004]
ポイントクラウドサンプリングは、様々なビジョンタスクの計算コストとストレージ要求を減らす上で重要な役割を果たす。
最遠点サンプリングのような従来のサンプリング手法では、タスク固有の情報が欠落している。
提案手法では, サンプル処理をTop-k操作として定式化したCS-Netを提案する。
論文 参考訳(メタデータ) (2025-01-18T14:56:09Z) - Few-Shot 3D Point Cloud Semantic Segmentation via Stratified
Class-Specific Attention Based Transformer Network [22.9434434107516]
数ショットのクラウドセマンティックセマンティックセグメンテーションのための新しい多層トランスフォーマーネットワークを開発した。
提案手法は,既存の数ショットの3Dポイントクラウドセグメンテーションモデルよりも15%少ない推論時間で,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T00:27:54Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z) - Attention-guided Chained Context Aggregation for Semantic Segmentation [13.555282589559885]
本稿では,CAM(Chained Context Aggregation Module)と呼ばれる並列並列ハイブリッドパラダイムを提案する。
CAMは鎖に接続されたはしごのような情報の流れを通じて様々な空間スケールの特徴を得、それらを前融合と再融合という2段階のプロセスで融合する。
非対称デコーダを用いて予測マップの正確な空間的詳細を復元する階層型コンテキスト集約ネットワーク(CANet)を構築した。
論文 参考訳(メタデータ) (2020-02-27T11:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。