論文の概要: Point Transformer V3: Simpler, Faster, Stronger
- arxiv url: http://arxiv.org/abs/2312.10035v2
- Date: Mon, 25 Mar 2024 16:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 22:13:20.056591
- Title: Point Transformer V3: Simpler, Faster, Stronger
- Title(参考訳): Point Transformer V3: よりシンプルで、より速く、より強く
- Authors: Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao,
- Abstract要約: 本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 88.80496333515325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is not motivated to seek innovation within the attention mechanism. Instead, it focuses on overcoming the existing trade-offs between accuracy and efficiency within the context of point cloud processing, leveraging the power of scale. Drawing inspiration from recent advances in 3D large-scale representation learning, we recognize that model performance is more influenced by scale than by intricate design. Therefore, we present Point Transformer V3 (PTv3), which prioritizes simplicity and efficiency over the accuracy of certain mechanisms that are minor to the overall performance after scaling, such as replacing the precise neighbor search by KNN with an efficient serialized neighbor mapping of point clouds organized with specific patterns. This principle enables significant scaling, expanding the receptive field from 16 to 1024 points while remaining efficient (a 3x increase in processing speed and a 10x improvement in memory efficiency compared with its predecessor, PTv2). PTv3 attains state-of-the-art results on over 20 downstream tasks that span both indoor and outdoor scenarios. Further enhanced with multi-dataset joint training, PTv3 pushes these results to a higher level.
- Abstract(参考訳): 本論文は,注目機構内でのイノベーションを追求する動機にはならない。
その代わり、ポイントクラウド処理のコンテキストにおいて、正確性と効率の既存のトレードオフを克服し、スケールのパワーを活用することに重点を置いている。
近年の3次元大規模表現学習の進歩から着想を得た結果,モデルの性能は複雑な設計よりもスケールに影響されていることがわかった。
そこで我々は,KNNによる正確な隣接探索を,特定のパターンで整理された点雲の効率的な直列化近傍マッピングに置き換えるなど,スケーリング後の全体的な性能に劣る機構の精度よりも,単純さと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
この原理により、受容野を16点から1024点に拡張し、効率を保ちながら、大きなスケーリングが可能となる(処理速度は3倍、メモリ効率は10倍に向上する)。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
PTv3は、マルチデータセットのジョイントトレーニングによってさらに強化され、これらの結果をより高いレベルに押し上げる。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - ReduceFormer: Attention with Tensor Reduction by Summation [4.985969607297595]
注意を払って効率よく最適化されたモデルのファミリーであるReduceeFormerを紹介します。
ReduceFormerは、reduceやement-wise multiplicationといった単純な操作のみを活用するため、アーキテクチャが大幅に単純化され、推論性能が向上した。
提案するモデルファミリは,計算資源とメモリ帯域幅が限られているエッジデバイスや,高いスループットを求めるクラウドコンピューティングに適している。
論文 参考訳(メタデータ) (2024-06-11T17:28:09Z) - Adaptive Point Transformer [88.28498667506165]
Adaptive Point Cloud Transformer (AdaPT) は、適応トークン選択機構によって強化された標準PTモデルである。
AdaPTは推論中のトークン数を動的に削減し、大きな点雲の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2024-01-26T13:24:45Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Point Transformer V2: Grouped Vector Attention and Partition-based
Pooling [25.245254516317118]
我々は、ポイント変換器の限界を分析し、強力で効率的なポイント変換器V2モデルを提案する。
特に,まず,従来のベクトル注意法よりも効果的である群ベクトル注意法を提案する。
我々のモデルは,先行モデルよりも優れた性能を達成し,いくつかの挑戦的な3Dポイントクラウド理解ベンチマークで最先端を達成している。
論文 参考訳(メタデータ) (2022-10-11T17:58:03Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning [5.236787242129767]
本稿では,ポイント・ボクセル変換器 (PVT) と呼ばれる新しい3次元変換器を提案する。
提案手法はトランスフォーマーアーキテクチャの可能性を完全に活用し,効率よく正確な認識を行う。
論文 参考訳(メタデータ) (2021-08-13T06:07:57Z) - EDNet: Efficient Disparity Estimation with Cost Volume Combination and
Attention-based Spatial Residual [17.638034176859932]
既存の分散度推定は、主に4D結合ボリュームを活用し、分散回帰のための非常に深い3D畳み込みニューラルネットワーク(CNN)を構築する。
本稿では,EDNetというネットワークを効率よく分散推定する手法を提案する。
Scene FlowとKITTIデータセットの実験は、EDNetが以前の3D CNNベースの作業より優れていることを示している。
論文 参考訳(メタデータ) (2020-10-26T04:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。