論文の概要: Point Transformer
- arxiv url: http://arxiv.org/abs/2011.00931v2
- Date: Thu, 14 Oct 2021 10:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:24:48.387205
- Title: Point Transformer
- Title(参考訳): 点変圧器
- Authors: Nico Engel, Vasileios Belagiannis and Klaus Dietmayer
- Abstract要約: Point Transformer(ポイントトランスフォーマー)は、未順序および非構造化の点集合で動作するディープニューラルネットワークである。
本稿では,空間的点関係と形状情報を取得することを目的とした,局所的・言語的アテンション機構を提案する。
Point Transformerの出力は、コンピュータビジョンアプリケーションに直接組み込むことができるソートおよび置換不変の特徴リストである。
- 参考スコア(独自算出の注目度): 15.312334863052968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Point Transformer, a deep neural network that
operates directly on unordered and unstructured point sets. We design Point
Transformer to extract local and global features and relate both
representations by introducing the local-global attention mechanism, which aims
to capture spatial point relations and shape information. For that purpose, we
propose SortNet, as part of the Point Transformer, which induces input
permutation invariance by selecting points based on a learned score. The output
of Point Transformer is a sorted and permutation invariant feature list that
can directly be incorporated into common computer vision applications. We
evaluate our approach on standard classification and part segmentation
benchmarks to demonstrate competitive results compared to the prior work. Code
is publicly available at: https://github.com/engelnico/point-transformer
- Abstract(参考訳): 本研究では,非順序および非構造点集合上で直接動作するディープニューラルネットワークであるPoint Transformerを提案する。
我々は,局所的および全体的特徴を抽出するためにポイントトランスフォーマーを設計し,空間的ポイント関係と形状情報を取り込むことを目的とした局所的グローバルアテンション機構を導入することで,両方の表現を関連付ける。
そこで本研究では,ポイントトランスフォーマーの一部として,学習スコアに基づいて点を選択することで入力の置換不変性を誘発するソートネットを提案する。
Point Transformerの出力はソートおよび置換不変の特徴リストであり、一般的なコンピュータビジョンアプリケーションに直接組み込むことができる。
標準分類と部分分割ベンチマークのアプローチを評価し,先行研究と比較し,比較検討を行った。
コードは、https://github.com/engelnico/point-transformerで公開されている。
関連論文リスト
- PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - Exploiting Inductive Bias in Transformer for Point Cloud Classification
and Segmentation [22.587913528540465]
本稿では,新しいインダクティブバイアス支援トランス (IBT) 法を設計し,点間関係を学習する。
局所的特徴学習は相対的位置、注意的特徴プーリングを通じて行われる。
分類タスクと分割タスクにおいて,その優位性を実験的に示す。
論文 参考訳(メタデータ) (2023-04-27T12:17:35Z) - Self-positioning Point-based Transformer for Point Cloud Understanding [18.394318824968263]
セルフポジショニングポイントベースのトランスフォーマー(SPoTr)は、局所的およびグローバルな形状のコンテキストを複雑さを減らしてキャプチャするように設計されている。
SPoTrは、ScanObjectNNを用いた形状分類における以前の最良のモデルよりも精度が2.6%向上している。
論文 参考訳(メタデータ) (2023-03-29T04:27:11Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Point Cloud Recognition with Position-to-Structure Attention
Transformers [24.74805434602145]
Position-to-Structure Attention Transformer (PS-Former) は3Dポイントクラウド認識のためのトランスフォーマーベースのアルゴリズムである。
PS-Formerは、固定グリッド構造にポイントが配置されていない3Dポイントクラウド表現の課題に対処する。
PS-Formerは、分類、部分セグメンテーション、シーンセグメンテーションを含む3つの3Dポイントクラウドタスクに対して、競争力のある実験結果を示す。
論文 参考訳(メタデータ) (2022-10-05T05:40:33Z) - PointConvFormer: Revenge of the Point-based Convolution [7.539787913497268]
我々は、ポイントクラウドベースのディープネットワークアーキテクチャのための新しいビルディングブロックであるPointConvFormerを紹介した。
一般化理論にインスパイアされたPointConvFormerは、フィルタ重みが相対的な位置のみに基づく点畳み込みと、特徴に基づく注意力を利用する変換器を組み合わせた。
以上の結果から,PointConvFormerは従来のコンボリューション,正規トランスフォーマー,ボキセル化スパースコンボリューションアプローチよりも精度の高いトレードオフを提供することがわかった。
論文 参考訳(メタデータ) (2022-08-04T20:31:46Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。