論文の概要: Transformers in 3D Point Clouds: A Survey
- arxiv url: http://arxiv.org/abs/2205.07417v1
- Date: Mon, 16 May 2022 01:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 16:57:51.970693
- Title: Transformers in 3D Point Clouds: A Survey
- Title(参考訳): 3Dポイントクラウドのトランスフォーマー:サーベイ
- Authors: Dening Lu, Qian Xie, Mingqiang Wei, Linlin Xu, Jonathan Li
- Abstract要約: 3Dトランスフォーマーモデルは、長距離依存モデリングの驚くべき能力があることが証明されている。
本調査は,各種タスク用に設計された3Dトランスフォーマーの概要を概観することを目的としている。
- 参考スコア(独自算出の注目度): 27.784721081318935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, Transformer models have been proven to have the remarkable
ability of long-range dependencies modeling. They have achieved satisfactory
results both in Natural Language Processing (NLP) and image processing. This
significant achievement sparks great interest among researchers in 3D point
cloud processing to apply them to various 3D tasks. Due to the inherent
permutation invariance and strong global feature learning ability, 3D
Transformers are well suited for point cloud processing and analysis. They have
achieved competitive or even better performance compared to the
state-of-the-art non-Transformer algorithms. This survey aims to provide a
comprehensive overview of 3D Transformers designed for various tasks (e.g.
point cloud classification, segmentation, object detection, and so on). We
start by introducing the fundamental components of the general Transformer and
providing a brief description of its application in 2D and 3D fields. Then, we
present three different taxonomies (i.e., Transformer implementation-based
taxonomy, data representation-based taxonomy, and task-based taxonomy) for
method classification, which allows us to analyze involved methods from
multiple perspectives. Furthermore, we also conduct an investigation of 3D
self-attention mechanism variants designed for performance improvement. To
demonstrate the superiority of 3D Transformers, we compare the performance of
Transformer-based algorithms in terms of point cloud classification,
segmentation, and object detection. Finally, we point out three potential
future research directions, expecting to provide some benefit references for
the development of 3D Transformers.
- Abstract(参考訳): 近年、トランスフォーマーモデルは長距離依存性モデリングの顕著な能力を持つことが証明されている。
彼らは自然言語処理(NLP)と画像処理の両方で満足な結果を得た。
この大きな成果は、様々な3Dタスクに適用するために、3Dポイントクラウド処理の研究者の間で大きな関心を呼んだ。
固有な置換不変性と強力なグローバルな特徴学習能力のため、3Dトランスフォーマーはポイントクラウド処理と解析に適している。
最先端の非トランスフォーマーアルゴリズムと比較して、競争力やパフォーマンスが向上している。
この調査は、様々なタスク(ポイントクラウドの分類、セグメンテーション、オブジェクト検出など)用に設計された3dトランスフォーマーの包括的な概要を提供することを目的としている。
まず、一般的なTransformerの基本コンポーネントを導入し、その2Dおよび3Dフィールドでの応用を簡潔に説明する。
次に,3種類の分類法(トランスフォーマティブ・インプリメンテーションに基づく分類法,データ表現に基づく分類法,タスクに基づく分類法)を提案し,複数の視点から関連する手法を分析する。
さらに,性能向上のために設計された3次元自己保持機構の変種についても検討する。
3Dトランスフォーマーの優位性を示すために,ポイントクラウド分類,セグメンテーション,オブジェクト検出の観点から,トランスフォーマーベースのアルゴリズムの性能を比較した。
最後に,3次元変換器の開発にメリットを期待しながら,将来的な3つの研究方向を指摘する。
関連論文リスト
- Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - On the Robustness of 3D Object Detectors [9.467525852900007]
3Dシーンには様々なバリエーションがあり、センサーの不正確さや前処理時の情報損失の傾向があります。
この研究は、一般的なポイントベースの3Dオブジェクト検出器をいくつかのデータ破損に対して分析し、ベンチマークすることを目的としている。
論文 参考訳(メタデータ) (2022-07-20T21:47:15Z) - 3DCTN: 3D Convolution-Transformer Network for Point Cloud Classification [23.0009969537045]
本稿では,ポイントクラウド分類のためのTransformerとの畳み込みを取り入れた,新しい階層型フレームワークを提案する。
本手法は精度と効率の両面で最先端の分類性能を実現する。
論文 参考訳(メタデータ) (2022-03-02T02:42:14Z) - An End-to-End Transformer Model for 3D Object Detection [39.86969344736215]
3DETRは3Dポイントクラウドのためのエンドツーエンドのトランスフォーマーベースのオブジェクト検出モデルである。
3DETRは、ScanNetV2データセットを9.5%向上させ、十分に確立され、高度に最適化されたVotetNetベースラインを上回っている。
論文 参考訳(メタデータ) (2021-09-16T17:57:37Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - SE(3)-Transformers: 3D Roto-Translation Equivariant Attention Networks [71.55002934935473]
連続的な3次元ロト変換の下で同変である3次元点雲とグラフに対する自己アテンションモジュールの変種であるSE(3)-Transformerを導入する。
我々は, 入力の回転下での予測の頑健性を示す, おもちゃのN体粒子シミュレーションデータセットを用いて, モデルの評価を行った。
論文 参考訳(メタデータ) (2020-06-18T13:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。