論文の概要: Point Cloud Learning with Transformer
- arxiv url: http://arxiv.org/abs/2104.13636v1
- Date: Wed, 28 Apr 2021 08:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 18:53:47.859749
- Title: Point Cloud Learning with Transformer
- Title(参考訳): Transformerによるポイントクラウド学習
- Authors: Xian-Feng Han, Yu-Jia Kuang, Guo-Qiang Xiao
- Abstract要約: 我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
- 参考スコア(独自算出の注目度): 2.3204178451683264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remarkable performance from Transformer networks in Natural Language
Processing promote the development of these models in dealing with computer
vision tasks such as image recognition and segmentation. In this paper, we
introduce a novel framework, called Multi-level Multi-scale Point Transformer
(MLMSPT) that works directly on the irregular point clouds for representation
learning. Specifically, a point pyramid transformer is investigated to model
features with diverse resolutions or scales we defined, followed by a
multi-level transformer module to aggregate contextual information from
different levels of each scale and enhance their interactions. While a
multi-scale transformer module is designed to capture the dependencies among
representations across different scales. Extensive evaluation on public
benchmark datasets demonstrate the effectiveness and the competitive
performance of our methods on 3D shape classification, part segmentation and
semantic segmentation tasks.
- Abstract(参考訳): 自然言語処理におけるトランスフォーマーネットワークの顕著な性能は、画像認識やセグメンテーションといったコンピュータビジョンタスクを扱う際のこれらのモデルの開発を促進する。
本稿では,多レベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる,表現学習のための不規則なポイントクラウド上で直接動作する新しいフレームワークを提案する。
具体的には,各スケールの異なるレベルからコンテキスト情報を集約し,それらの相互作用を強化するマルチレベルトランスフォーマーモジュールを用いて,様々な解像度やスケールで特徴をモデル化する。
マルチスケールトランスフォーマーモジュールは、異なるスケールの表現間の依存関係をキャプチャするように設計されている。
公開ベンチマークデータセットの広範な評価は,3次元形状分類,パートセグメンテーション,セマンティックセグメンテーションタスクにおける提案手法の有効性と競合性を示している。
関連論文リスト
- PointCAT: Cross-Attention Transformer for point cloud [1.3176016397292067]
本稿では、新しいエンドツーエンドネットワークアーキテクチャであるPointCAT(Point Cross-Attention Transformer)を提案する。
提案手法は,2つのセシレート・クロスアテンション・トランスを用いたマルチスケール機能を組み合わせたものである。
本手法は, 形状分類, 部分分割, セマンティックセマンティックセマンティクスタスクにおけるいくつかの手法に比較して, 性能を向上または達成する。
論文 参考訳(メタデータ) (2023-04-06T11:58:18Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - PSFormer: Point Transformer for 3D Salient Object Detection [8.621996554264275]
PSFormerはエンコーダとデコーダのネットワークであり、コンテクスト情報をモデル化するためにトランスフォーマーを最大限に活用する。
エンコーダではポイントコンテキスト変換器(PCT)モジュールを開発し、ポイントレベルでの領域コンテキストの特徴をキャプチャする。
デコーダでは,シーンレベルでコンテキスト表現を学習するためのSCT (Scene Context Transformer) モジュールを開発した。
論文 参考訳(メタデータ) (2022-10-28T06:34:28Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Dual Transformer for Point Cloud Analysis [2.160196691362033]
Dual Transformer Network (DTNet) と呼ばれる新しいポイントクラウド表現学習アーキテクチャを紹介します。
具体的には、よく設計されたポイントワイズモデルとチャネルワイズマルチヘッドセルフアテンションモデルを同時にアグリゲートすることで、DPCTモジュールは位置とチャネルの観点から意味的にはるかにリッチなコンテキスト依存性をキャプチャできます。
3Dポイントクラウドの分類とセグメンテーションのタスクにおいて,提案するトランスフォーマーフレームワークの有効性を実証し,最先端のアプローチと比較して高い競争性能を実現した。
論文 参考訳(メタデータ) (2021-04-27T08:41:02Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。