論文の概要: Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding
- arxiv url: http://arxiv.org/abs/2208.12259v3
- Date: Fri, 2 Feb 2024 12:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 20:50:07.509447
- Title: Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding
- Title(参考訳): Pix4Point:3Dポイントクラウド理解のためのイメージ事前トレーニング標準変換器
- Authors: Guocheng Qian, Abdullah Hamdi, Xingdi Zhang, Bernard Ghanem
- Abstract要約: 本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
- 参考スコア(独自算出の注目度): 62.502694656615496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Transformers have achieved impressive success in natural language
processing and computer vision, their performance on 3D point clouds is
relatively poor. This is mainly due to the limitation of Transformers: a
demanding need for extensive training data. Unfortunately, in the realm of 3D
point clouds, the availability of large datasets is a challenge, exacerbating
the issue of training Transformers for 3D tasks. In this work, we solve the
data issue of point cloud Transformers from two perspectives: (i) introducing
more inductive bias to reduce the dependency of Transformers on data, and (ii)
relying on cross-modality pretraining. More specifically, we first present
Progressive Point Patch Embedding and present a new point cloud Transformer
model namely PViT. PViT shares the same backbone as Transformer but is shown to
be less hungry for data, enabling Transformer to achieve performance comparable
to the state-of-the-art. Second, we formulate a simple yet effective pipeline
dubbed "Pix4Point" that allows harnessing Transformers pretrained in the image
domain to enhance downstream point cloud understanding. This is achieved
through a modality-agnostic Transformer backbone with the help of a tokenizer
and decoder specialized in the different domains. Pretrained on a large number
of widely available images, significant gains of PViT are observed in the tasks
of 3D point cloud classification, part segmentation, and semantic segmentation
on ScanObjectNN, ShapeNetPart, and S3DIS, respectively. Our code and models are
available at https://github.com/guochengqian/Pix4Point .
- Abstract(参考訳): Transformersは自然言語処理とコンピュータビジョンで素晴らしい成功を収めているが、3Dポイントクラウドのパフォーマンスは比較的劣っている。
これは主にトランスフォーマーの制限によるものであり、広範なトレーニングデータを必要とする。
残念ながら、3dポイントクラウドの領域では、大規模なデータセットの可用性が課題であり、3dタスクのためのトランスフォーマーのトレーニングの問題を悪化させている。
本研究では,ポイントクラウドトランスフォーマーのデータ課題を2つの視点から解決する。
(i)データへのトランスフォーマーの依存を軽減するため、より誘導バイアスを導入し、
(ii)クロスモダリティ事前学習による。
より具体的には、最初にプログレッシブポイントパッチの埋め込みを示し、pvitと呼ばれる新しいポイントクラウドトランスフォーマーモデルを示す。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
第2に,画像領域で事前トレーニングされたトランスフォーマーを活用することで,下流点のクラウド理解を促進する,シンプルかつ効果的なパイプライン「pix4point」を定式化する。
これは、異なるドメインに特化したトークン化子とデコーダの助けを借りて、モダリティ非依存のトランスフォーマーバックボーンによって実現される。
多数の画像に事前学習を行った結果,scanobjectnn,shapenetpart,s3disの3dポイントクラウド分類,部分セグメンテーション,セマンティックセグメンテーションなどのタスクにおいて,pvitの大幅な向上が見られた。
私たちのコードとモデルはhttps://github.com/guochengqian/Pix4Pointで利用可能です。
関連論文リスト
- Applying Plain Transformers to Real-World Point Clouds [0.0]
この研究は、現実世界のポイントクラウド理解におけるプレーントランスフォーマーを再考する。
誘導バイアスの欠如による性能ギャップを解消するため,マスク付きオートエンコーダ(MAE)を用いた自己教師型事前訓練について検討した。
我々のモデルは,S3DISデータセットのセマンティックセグメンテーションとScanNetデータセットのオブジェクト検出において,計算コストの低いSOTA結果を実現する。
論文 参考訳(メタデータ) (2023-02-28T21:06:36Z) - Transformers in 3D Point Clouds: A Survey [27.784721081318935]
3Dトランスフォーマーモデルは、長距離依存モデリングの驚くべき能力があることが証明されている。
本調査は,各種タスク用に設計された3Dトランスフォーマーの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2022-05-16T01:32:18Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point
Modeling [104.82953953453503]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。
提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (2021-11-29T18:59:03Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。