Fugu-MT 論文翻訳(概要): Soft Masked Transformer for Point Cloud Processing with Skip Attention-Based Upsampling

論文の概要: Soft Masked Transformer for Point Cloud Processing with Skip Attention-Based Upsampling

arxiv url: http://arxiv.org/abs/2403.14124v1
Date: Thu, 21 Mar 2024 04:34:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 15:27:06.133666
Title: Soft Masked Transformer for Point Cloud Processing with Skip Attention-Based Upsampling
Title（参考訳）: スキップアテンションに基づくアップサンプリングによるポイントクラウド処理のためのソフトマスク変換器
Authors: Yong He, Hongshan Yu, Muhammad Ibrahim, Xiaoyan Liu, Tongjia Chen, Anwaar Ulhaq, Ajmal Mian,
Abstract要約: 我々は、タスクレベルの情報をエンコードステージに統合することで、パフォーマンスが大幅に向上すると主張している。符号化層と復号層の機能間の効果的な通信を容易にするために,スキップアテンションに基づくアップサンプリングブロックを導入する。 S3DISエリア5では73.4% mIoU、SWANデータセットでは62.4% mIoUである。
参考スコア（独自算出の注目度）: 28.218242268501
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Point cloud processing methods leverage local and global point features %at the feature level to cater to downstream tasks, yet they often overlook the task-level context inherent in point clouds during the encoding stage. We argue that integrating task-level information into the encoding stage significantly enhances performance. To that end, we propose SMTransformer which incorporates task-level information into a vector-based transformer by utilizing a soft mask generated from task-level queries and keys to learn the attention weights. Additionally, to facilitate effective communication between features from the encoding and decoding layers in high-level tasks such as segmentation, we introduce a skip-attention-based up-sampling block. This block dynamically fuses features from various resolution points across the encoding and decoding layers. To mitigate the increase in network parameters and training time resulting from the complexity of the aforementioned blocks, we propose a novel shared position encoding strategy. This strategy allows various transformer blocks to share the same position information over the same resolution points, thereby reducing network parameters and training time without compromising accuracy.Experimental comparisons with existing methods on multiple datasets demonstrate the efficacy of SMTransformer and skip-attention-based up-sampling for point cloud processing tasks, including semantic segmentation and classification. In particular, we achieve state-of-the-art semantic segmentation results of 73.4% mIoU on S3DIS Area 5 and 62.4% mIoU on SWAN dataset
Abstract（参考訳）: ポイントクラウド処理メソッドは、機能レベル%のローカルおよびグローバルなポイント機能を活用して、下流のタスクに対応しますが、エンコーディング段階ではポイントクラウドに固有のタスクレベルのコンテキストを見落とします。我々は、タスクレベルの情報をエンコードステージに統合することで、パフォーマンスが大幅に向上すると主張している。そこで本研究では,タスクレベルのクエリとキーから発生するソフトマスクを利用して,タスクレベルの情報をベクトルベースの変換器に組み込むSMTransformerを提案する。さらに,セグメンテーションなどの高レベルタスクにおける符号化層と復号層の機能間の効果的な通信を容易にするために,スキップアテンションに基づくアップサンプリングブロックを導入する。このブロックは、エンコーディング層とデコード層にまたがる様々な解像度ポイントから機能を動的に融合する。上記のブロックの複雑さによるネットワークパラメータの増加とトレーニング時間を緩和するために,新しい共有位置符号化戦略を提案する。この戦略により、様々なトランスフォーマーブロックが同一の解像度ポイント上で同じ位置情報を共有することができ、それによってネットワークパラメータとトレーニング時間を精度を損なうことなく削減することができる。特に、S3DISエリア5では73.4% mIoU、SWANデータセットでは62.4% mIoUの最先端セマンティックセマンティックセマンティックセグメンテーション結果を得る。

関連論文リスト

Hierarchical Attention Networks for Lossless Point Cloud Attribute Compression [22.234604407822673]
本稿では,点雲の属性圧縮のための階層的注意コンテキストモデルを提案する。単純で効果的なレベル・オブ・ディーテール(LoD)構造を導入し、粗い粒度表現を生成する。同じ改善レベル内の点は並列に符号化され、共通のコンテキストポイントグループを共有する。
論文参考訳（メタデータ） (2025-04-01T07:14:10Z)
FASTer: Focal Token Acquiring-and-Scaling Transformer for Long-term 3D Object Detection [9.291995455336929]
我々はFAST(Focal Token Acquring-and-Scaling Transformer)を提案する。 FASTerは、適応的で軽量な方法でトークンシーケンスを凝縮する。性能と効率の両方で、他の最先端の検出器よりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-28T03:15:33Z)
Laser: Efficient Language-Guided Segmentation in Neural Radiance Fields [49.66011190843893]
本稿では,CLIP特徴蒸留を利用して,言語指導による効率的な3次元セグメンテーションを実現する手法を提案する。これを実現するために,我々は,高密度CLIP特徴蒸留プロセスにおいて,アダプタモジュールを導入し,ノイズ問題を緩和する。本手法は, 訓練速度と性能の両面で, 現在の最先端技術を上回っている。
論文参考訳（メタデータ） (2025-01-31T12:19:14Z)
CS-Net:Contribution-based Sampling Network for Point Cloud Simplification [50.55658910053004]
ポイントクラウドサンプリングは、様々なビジョンタスクの計算コストとストレージ要求を減らす上で重要な役割を果たす。最遠点サンプリングのような従来のサンプリング手法では、タスク固有の情報が欠落している。提案手法では, サンプル処理をTop-k操作として定式化したCS-Netを提案する。
論文参考訳（メタデータ） (2025-01-18T14:56:09Z)
Few-Shot 3D Point Cloud Semantic Segmentation via Stratified Class-Specific Attention Based Transformer Network [22.9434434107516]
数ショットのクラウドセマンティックセマンティックセグメンテーションのための新しい多層トランスフォーマーネットワークを開発した。提案手法は,既存の数ショットの3Dポイントクラウドセグメンテーションモデルよりも15%少ない推論時間で,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-28T00:27:54Z)
CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文参考訳（メタデータ） (2022-07-31T21:39:15Z)
Semantic Labeling of High Resolution Images Using EfficientUNets and Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文参考訳（メタデータ） (2022-06-20T12:03:54Z)
Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。 S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文参考訳（メタデータ） (2022-03-28T05:35:16Z)
Multi-scale and Cross-scale Contrastive Learning for Semantic Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文参考訳（メタデータ） (2022-03-25T01:24:24Z)
Stage-Aware Feature Alignment Network for Real-Time Semantic Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文参考訳（メタデータ） (2022-03-08T11:46:41Z)
Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文参考訳（メタデータ） (2021-12-27T14:05:41Z)
Semantic Attention and Scale Complementary Network for Instance Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。 SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。 SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文参考訳（メタデータ） (2021-07-25T08:53:59Z)
Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文参考訳（メタデータ） (2021-07-18T09:05:16Z)
Attention-guided Chained Context Aggregation for Semantic Segmentation [13.555282589559885]
本稿では,CAM(Chained Context Aggregation Module)と呼ばれる並列並列ハイブリッドパラダイムを提案する。 CAMは鎖に接続されたはしごのような情報の流れを通じて様々な空間スケールの特徴を得、それらを前融合と再融合という2段階のプロセスで融合する。非対称デコーダを用いて予測マップの正確な空間的詳細を復元する階層型コンテキスト集約ネットワーク(CANet)を構築した。
論文参考訳（メタデータ） (2020-02-27T11:26:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。