論文の概要: Applying Plain Transformers to Real-World Point Clouds
- arxiv url: http://arxiv.org/abs/2303.00086v1
- Date: Tue, 28 Feb 2023 21:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 16:46:38.183508
- Title: Applying Plain Transformers to Real-World Point Clouds
- Title(参考訳): プレーントランスを実世界のクラウドに適用する
- Authors: Lanxiao Li, Michael Heizmann
- Abstract要約: この研究は、現実世界のポイントクラウド理解におけるプレーントランスフォーマーを再考する。
帰納バイアスや注釈付きデータの欠如によるパフォーマンスギャップを解消するために,マスク付きオートエンコーダ(MAE)を用いた自己教師型事前学習について検討する。
我々のモデルは,S3DISデータセットのセマンティックセグメンテーションとScanNetデータセットのオブジェクト検出において,計算コストの低いSOTA結果を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the lack of inductive bias, transformer-based models usually require a
large amount of training data. The problem is especially concerning in 3D
vision, as 3D data are harder to acquire and annotate. To overcome this
problem, previous works modify the architecture of transformers to incorporate
inductive biases by applying, e.g., local attention and down-sampling. Although
they have achieved promising results, earlier works on transformers for point
clouds have two issues. First, the power of plain transformers is still
under-explored. Second, they focus on simple and small point clouds instead of
complex real-world ones. This work revisits the plain transformers in
real-world point cloud understanding. We first take a closer look at some
fundamental components of plain transformers, e.g., patchifier and positional
embedding, for both efficiency and performance. To close the performance gap
due to the lack of inductive bias and annotated data, we investigate
self-supervised pre-training with masked autoencoder (MAE). Specifically, we
propose drop patch, which prevents information leakage and significantly
improves the effectiveness of MAE. Our models achieve SOTA results in semantic
segmentation on the S3DIS dataset and object detection on the ScanNet dataset
with lower computational costs. Our work provides a new baseline for future
research on transformers for point clouds.
- Abstract(参考訳): 帰納バイアスがないため、トランスフォーマーベースのモデルは通常、大量のトレーニングデータを必要とする。
3Dデータは取得や注釈が難しいため、特に3Dビジョンでは問題となる。
この問題を解決するために、従来の研究は、例えば局所的な注意とダウンサンプリングを適用して、帰納バイアスを組み込むようにトランスフォーマーのアーキテクチャを変更した。
彼らは有望な結果を得たが、ポイントクラウドのトランスフォーマーに関する初期の研究には2つの問題がある。
第一に、変圧器のパワーはまだ未探索である。
第二に、複雑な現実世界のクラウドではなく、シンプルで小さなクラウドに焦点を当てている。
この研究は、現実世界のクラウド理解におけるプレーントランスフォーマーを再考する。
まず、効率と性能の両面で、パッチファイヤや位置埋め込みなど、プレーントランスフォーマーの基本的なコンポーネントをいくつか詳しく見てみましょう。
帰納バイアスや注釈付きデータの欠如によるパフォーマンスギャップを解消するため,マスク付きオートエンコーダ(MAE)を用いた自己教師付き事前学習について検討した。
具体的には,情報漏洩を防止し,MAEの有効性を大幅に改善するドロップパッチを提案する。
我々のモデルは,S3DISデータセットのセマンティックセグメンテーションとScanNetデータセットのオブジェクト検出において,計算コストの低いSOTA結果を実現する。
我々の研究は、ポイントクラウドのためのトランスフォーマーの研究のための新しいベースラインを提供する。
関連論文リスト
- NoiseTrans: Point Cloud Denoising with Transformers [4.143032261649984]
我々は,変圧器エンコーダアーキテクチャをポイントクラウドデノーミングに用いる新しいモデルであるNossTransを設計する。
我々は変圧器の中核自己保持機構の助けを借りて点ベースの点雲の構造的類似性を得る。
実験により,本モデルが各種データセットや騒音環境における最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-04-24T04:01:23Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Transformers for Object Detection in Large Point Clouds [9.287964414592826]
トランスLPC(TransLPC)は,変圧器アーキテクチャに基づく大点雲の新しい検出モデルである。
本稿では,メモリフレンドリーな変圧器デコーダクエリ数を維持しながら,検出精度を向上させる新しいクエリ改善手法を提案する。
この単純な手法は検出精度に大きな影響を与え、実際のライダーデータ上での挑戦的なnuScenesデータセットで評価される。
論文 参考訳(メタデータ) (2022-09-30T06:35:43Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point
Modeling [104.82953953453503]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。
提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (2021-11-29T18:59:03Z) - PU-Transformer: Point Cloud Upsampling Transformer [38.05362492645094]
我々は、疎入力データから高密度高忠実点雲を生成することを目的とした点群アップサンプリングタスクに焦点をあてる。
具体的には,特徴表現における変換器の強みを活性化するために,多頭部自己注意構造の新しい変種を開発する。
我々は,従来のCNN手法と比較し,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-24T03:25:35Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers [81.71904691925428]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々はまた、ポイントクラウド補完のためにトランスフォーマーエンコーダデコーダアーキテクチャを採用するPoinTrと呼ばれる新しいモデルも設計している。
提案手法は,新しいベンチマークと既存ベンチマークの両方において,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T17:58:56Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。