論文の概要: Pix4Point: Image Pretrained Transformers for 3D Point Cloud
Understanding
- arxiv url: http://arxiv.org/abs/2208.12259v1
- Date: Thu, 25 Aug 2022 17:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:36:31.072687
- Title: Pix4Point: Image Pretrained Transformers for 3D Point Cloud
Understanding
- Title(参考訳): Pix4Point:3Dポイントクラウド理解のためのイメージ事前トレーニングトランスフォーマー
- Authors: Guocheng Qian, Xingdi Zhang, Abdullah Hamdi, Bernard Ghanem
- Abstract要約: 点雲理解のための多数の画像からの知識を活用する効果について検討する。
textitPix4Pointと呼ばれるパイプラインを定式化し、画像領域で事前訓練されたトランスフォーマーを利用できるようにします。
Pix4Pointの3Dポイントクラウド分類,部分分割,セマンティックセグメンテーションのタスクにおける性能向上について検討した。
- 参考スコア(独自算出の注目度): 63.927347927193296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pure Transformer models have achieved impressive success in natural language
processing and computer vision. However, one limitation with Transformers is
their need for large training data. In the realm of 3D point clouds, the
availability of large datasets is a challenge, which exacerbates the issue of
training Transformers for 3D tasks. In this work, we empirically study and
investigate the effect of utilizing knowledge from a large number of images for
point cloud understanding. We formulate a pipeline dubbed \textit{Pix4Point}
that allows harnessing pretrained Transformers in the image domain to improve
downstream point cloud tasks. This is achieved by a modality-agnostic pure
Transformer backbone with the help of tokenizer and decoder layers specialized
in the 3D domain. Using image-pretrained Transformers, we observe significant
performance gains of Pix4Point on the tasks of 3D point cloud classification,
part segmentation, and semantic segmentation on ScanObjectNN, ShapeNetPart, and
S3DIS benchmarks, respectively. Our code and models are available at:
\url{https://github.com/guochengqian/Pix4Point}.
- Abstract(参考訳): 純粋なトランスフォーマーモデルは自然言語処理とコンピュータビジョンで素晴らしい成功を収めた。
しかし、トランスフォーマーの1つの制限は、大規模なトレーニングデータの必要性である。
3dポイントクラウドの領域では、大規模なデータセットの可用性が課題となり、3dタスクのためのトランスフォーマーのトレーニングの問題が悪化する。
本研究では,多数の画像から得た知識をポイントクラウド理解に活用する効果を実証的に研究し,検討する。
私たちは、イメージ領域で事前訓練されたトランスフォーマーを使用してダウンストリームポイントクラウドタスクを改善する、‘textit{Pix4Point}’と呼ばれるパイプラインを定式化します。
これは、3Dドメインに特化したトークン化層とデコーダ層の助けを借りて、モダリティに依存しない純粋なトランスフォーマーバックボーンによって実現される。
画像プリトレーニングトランスを用いて,scanobjectnn,shapenetpart,s3disベンチマークにおける3dポイントクラウド分類,部分セグメンテーション,意味セグメンテーションのタスクにおけるpix4pointの有意な性能向上を観察した。
私たちのコードとモデルは、 \url{https://github.com/guochengqian/pix4point} で利用可能です。
関連論文リスト
- Applying Plain Transformers to Real-World Point Clouds [0.0]
この研究は、現実世界のポイントクラウド理解におけるプレーントランスフォーマーを再考する。
誘導バイアスの欠如による性能ギャップを解消するため,マスク付きオートエンコーダ(MAE)を用いた自己教師型事前訓練について検討した。
我々のモデルは,S3DISデータセットのセマンティックセグメンテーションとScanNetデータセットのオブジェクト検出において,計算コストの低いSOTA結果を実現する。
論文 参考訳(メタデータ) (2023-02-28T21:06:36Z) - Transformers in 3D Point Clouds: A Survey [27.784721081318935]
3Dトランスフォーマーモデルは、長距離依存モデリングの驚くべき能力があることが証明されている。
本調査は,各種タスク用に設計された3Dトランスフォーマーの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2022-05-16T01:32:18Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point
Modeling [104.82953953453503]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。
提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (2021-11-29T18:59:03Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。