論文の概要: ViPFormer: Efficient Vision-and-Pointcloud Transformer for Unsupervised
Pointcloud Understanding
- arxiv url: http://arxiv.org/abs/2303.14376v1
- Date: Sat, 25 Mar 2023 06:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:10:36.143236
- Title: ViPFormer: Efficient Vision-and-Pointcloud Transformer for Unsupervised
Pointcloud Understanding
- Title(参考訳): ViPFormer: 教師なしポイントクラウド理解のための効率的なビジョンアンドポイントクラウドトランスフォーマー
- Authors: Hongyu Sun, Yongcai Wang, Xudong Cai, Xuewei Bai and Deying Li
- Abstract要約: 単一アーキテクチャで画像とポイントクラウド処理を統合する軽量なViPFormer(ViPFormer)を提案する。
ViPFormerは、モーダル内およびクロスモーダルのコントラスト目的を最適化することにより、教師なしの方法で学習する。
異なるデータセットの実験では、ViPFormerは、より精度が高く、モデルの複雑さが低く、実行レイテンシが低い、従来の最先端の教師なしメソッドを上回っている。
- 参考スコア(独自算出の注目度): 3.7966094046587786
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, a growing number of work design unsupervised paradigms for point
cloud processing to alleviate the limitation of expensive manual annotation and
poor transferability of supervised methods. Among them, CrossPoint follows the
contrastive learning framework and exploits image and point cloud data for
unsupervised point cloud understanding. Although the promising performance is
presented, the unbalanced architecture makes it unnecessarily complex and
inefficient. For example, the image branch in CrossPoint is $\sim$8.3x heavier
than the point cloud branch leading to higher complexity and latency. To
address this problem, in this paper, we propose a lightweight
Vision-and-Pointcloud Transformer (ViPFormer) to unify image and point cloud
processing in a single architecture. ViPFormer learns in an unsupervised manner
by optimizing intra-modal and cross-modal contrastive objectives. Then the
pretrained model is transferred to various downstream tasks, including 3D shape
classification and semantic segmentation. Experiments on different datasets
show ViPFormer surpasses previous state-of-the-art unsupervised methods with
higher accuracy, lower model complexity and runtime latency. Finally, the
effectiveness of each component in ViPFormer is validated by extensive ablation
studies. The implementation of the proposed method is available at
https://github.com/auniquesun/ViPFormer.
- Abstract(参考訳): 近年,高額な手作業アノテーションの制限や,教師付き手法の転送性の低下を緩和するために,ポイントクラウド処理のための非教師付きパラダイムが増えている。
その中でもCrossPointは、対照的な学習フレームワークに従い、教師なしのポイントクラウド理解のためにイメージとポイントクラウドデータを活用する。
有望な性能を示すが、不均衡なアーキテクチャは必要以上に複雑で非効率である。
例えば、CrossPointの画像ブランチは、ポイントクラウドブランチよりも$\sim$8.3x重いため、複雑さとレイテンシが高くなる。
この問題に対処するため,本稿では,単一のアーキテクチャで画像とポイントクラウド処理を統一する軽量ビジョン・アンド・ポイントクラウドトランスフォーマ(vipformer)を提案する。
ViPFormerは、モーダル内およびクロスモーダルのコントラスト目的を最適化することにより、教師なしの方法で学習する。
その後、事前訓練されたモデルは、3次元形状分類や意味セグメンテーションを含む様々な下流タスクに転送される。
異なるデータセットでの実験では、vipformerは以前の最先端の教師なしメソッドよりも精度が高く、モデルの複雑さが低く、実行時のレイテンシが低い。
最後に,vipformerの各成分の有効性を広範なアブレーション研究により検証した。
提案手法の実装はhttps://github.com/auniquesun/ViPFormerで確認できる。
関連論文リスト
- Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images [22.054023867495722]
クラウドセグメンテーションはリモートセンシング画像解釈において重要な課題である。
本稿では,クラウドセグメンテーションの精度とロバスト性を高めるために,Cloud-Adapterと呼ばれるパラメータ効率適応手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T08:37:39Z) - PosDiffNet: Positional Neural Diffusion for Point Cloud Registration in
a Large Field of View with Perturbations [27.45001809414096]
PosDiffNetは、3Dコンピュータビジョンにおけるポイントクラウド登録のモデルである。
ベルトラミフローに基づくグラフニューラル偏微分方程式(PDE)を用いて高次元特徴を求める。
我々は、点雲間のアライメントを容易にするために、高特徴類似度スコアから導かれる多レベル対応を用いる。
我々はPosDiffNetを複数の3Dポイントクラウドデータセット上で評価し、摂動を伴う広い視野でのポイントクラウド登録において、最先端(SOTA)性能を達成することを検証した。
論文 参考訳(メタデータ) (2024-01-06T08:58:15Z) - Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud Models [64.49254199311137]
本稿では,事前学習点クラウドモデルのための新しいインスタンス対応動的プロンプトチューニング(IDPT)戦略を提案する。
IDPTの本質は、各ポイントクラウドインスタンスのセマンティックな事前特徴を知覚する動的プロンプト生成モジュールを開発することである。
実験では、IDPTはトレーニング可能なパラメータのわずか7%で、ほとんどのタスクにおいて完全な微調整よりも優れています。
論文 参考訳(メタデータ) (2023-04-14T16:03:09Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - Let Images Give You More:Point Cloud Cross-Modal Training for Shape
Analysis [43.13887916301742]
本稿では、ポイントクラウド分析を促進するために、シンプルだが効果的なポイントクラウドクロスモダリティトレーニング(PointCMT)戦略を導入する。
ビューイメージから補助的知識を効果的に獲得するために,教師学生のための枠組みを開発し,知識蒸留問題としてクロスモーダル学習を定式化する。
我々は、魅力的なバックボーン、すなわちPointCMT、PointNet++、PointMLPを備えた様々なデータセットにおいて、大きな利益を検証した。
論文 参考訳(メタデータ) (2022-10-09T09:35:22Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - Unsupervised Representation Learning for 3D Point Cloud Data [66.92077180228634]
我々は、教師なしのポイントクラウド学習に対して、シンプルで効果的なアプローチを提案する。
特に、原点雲の優れたコントラストバージョンを生成する非常に有用な変換を同定する。
本研究では,3次元オブジェクト分類,形状部分分割,シーン分割の3つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2021-10-13T10:52:45Z) - Pointly-supervised 3D Scene Parsing with Viewpoint Bottleneck [3.2790748006553643]
本稿では,ポイントワイズ・セマンティック・アノテーションが高価であることを考えると,極端にスパースなラベルを持つモデルを学ぶことの難しさに対処する。
本稿では,視点ボトルネックという自己監督型3次元表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-17T13:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。