論文の概要: SAT: Size-Aware Transformer for 3D Point Cloud Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2301.06869v1
- Date: Tue, 17 Jan 2023 13:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 14:11:24.478031
- Title: SAT: Size-Aware Transformer for 3D Point Cloud Semantic Segmentation
- Title(参考訳): sat: 3dポイントクラウドセマンティクスセグメンテーションのためのサイズ対応トランスフォーマー
- Authors: Junjie Zhou, Yongping Xiong, Chinwai Chiu, Fangyu Liu, Xiangyang Gong
- Abstract要約: 本研究では、異なるサイズのオブジェクトに対して効果的な受容場を調整できるSize-Aware Transformer(SAT)を提案する。
SATは,各注意層にマルチスケール機能を導入し,各点の注意領域を適応的に選択できるようにする。
- 参考スコア(独自算出の注目度): 6.308766374923878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have achieved promising performances in point cloud
segmentation. However, most existing attention schemes provide the same feature
learning paradigm for all points equally and overlook the enormous difference
in size among scene objects. In this paper, we propose the Size-Aware
Transformer (SAT) that can tailor effective receptive fields for objects of
different sizes. Our SAT achieves size-aware learning via two steps: introduce
multi-scale features to each attention layer and allow each point to choose its
attentive fields adaptively. It contains two key designs: the Multi-Granularity
Attention (MGA) scheme and the Re-Attention module. The MGA addresses two
challenges: efficiently aggregating tokens from distant areas and preserving
multi-scale features within one attention layer. Specifically, point-voxel
cross attention is proposed to address the first challenge, and the shunted
strategy based on the standard multi-head self attention is applied to solve
the second. The Re-Attention module dynamically adjusts the attention scores to
the fine- and coarse-grained features output by MGA for each point. Extensive
experimental results demonstrate that SAT achieves state-of-the-art
performances on S3DIS and ScanNetV2 datasets. Our SAT also achieves the most
balanced performance on categories among all referred methods, which
illustrates the superiority of modelling categories of different sizes. Our
code and model will be released after the acceptance of this paper.
- Abstract(参考訳): トランスフォーマーモデルはポイントクラウドセグメンテーションで有望な性能を達成した。
しかし、既存の注意制度のほとんどは、すべての点に対して等しく同じ特徴学習パラダイムを提供し、シーンオブジェクト間の大きさの違いを見落としている。
本稿では,異なる大きさの物体に対して効果的な受容場を調整できるサイズアウェアトランス(sat)を提案する。
SATは,各注意層にマルチスケール機能を導入し,各点の注意領域を適応的に選択できるようにする。
MGA(Multi-Granularity Attention)スキームとRe-Attentionモジュールの2つの主要な設計が含まれている。
MGAは2つの課題に対処する: トークンを遠くから効率的に集約し、1つの注意層内でマルチスケールの特徴を保存する。
具体的には,第1の課題に対処するために点ボクセルクロスアテンションを提案し,第2の課題を解決するために,標準的なマルチヘッド自己アテンションに基づく絞殺戦略を適用した。
Re-Attentionモジュールは、各ポイント毎にMGAによって出力される細粒度及び粗粒度の特徴に注意スコアを動的に調整する。
SATはS3DISおよびScanNetV2データセットの最先端性能を実現する。
我々のSATは、参照するすべてのメソッドの中で最もバランスの取れたカテゴリのパフォーマンスも達成しており、異なるサイズのモデリングカテゴリの優位性を示している。
この論文の受理後、私たちのコードとモデルはリリースされます。
関連論文リスト
- Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative
Convolution Network [80.19054069988559]
自己教師付き単眼深度推定は, 方向感度と環境依存性を示す。
本稿では2つの側面において深度表現を改善する方向対応累積畳み込みネットワーク(DaCCN)を提案する。
実験の結果,提案手法は広く使用されている3つのベンチマークにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-08-10T14:32:18Z) - IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。
クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。
本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文 参考訳(メタデータ) (2022-09-21T14:36:18Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Background-Aware 3D Point Cloud Segmentationwith Dynamic Point Feature
Aggregation [12.093182949686781]
DPFA-Net(Dynamic Point Feature Aggregation Network)と呼ばれる新しい3Dポイント・クラウド・ラーニング・ネットワークを提案する。
DPFA-Netにはセマンティックセグメンテーションと3Dポイントクラウドの分類のための2つのバリエーションがある。
S3DISデータセットのセマンティックセグメンテーションのための、最先端の全体的な精度スコアを達成する。
論文 参考訳(メタデータ) (2021-11-14T05:46:05Z) - DFNet: Discriminative feature extraction and integration network for
salient object detection [6.959742268104327]
畳み込みニューラルネットワークを用いた唾液度検出における課題の2つの側面に焦点をあてる。
第一に、様々な大きさに有能な物体が現れるため、単一スケールの畳み込みは適切な大きさを捉えない。
第二に、マルチレベル機能の使用は、モデルがローカルコンテキストとグローバルコンテキストの両方を使用するのに役立つ。
論文 参考訳(メタデータ) (2020-04-03T13:56:41Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。