論文の概要: Points to Patches: Enabling the Use of Self-Attention for 3D Shape
Recognition
- arxiv url: http://arxiv.org/abs/2204.03957v1
- Date: Fri, 8 Apr 2022 09:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:08:35.519283
- Title: Points to Patches: Enabling the Use of Self-Attention for 3D Shape
Recognition
- Title(参考訳): points to patch: 3次元形状認識におけるセルフアテンションの利用
- Authors: Axel Berg, Magnus Oskarsson, Mark O'Connor
- Abstract要約: 本稿では,局所的およびグローバルな注意機構を組み合わせた2段階のPoint Transformer-in-Transformer(Point-TnT)アプローチを提案する。
形状分類の実験では、このようなアプローチは、ベースライントランスフォーマーよりも下流タスクに有用な機能を提供している。
また,シーン再構築のための特徴マッチングに拡張し,既存のシーン再構築パイプラインと組み合わせて使用できることを示す。
- 参考スコア(独自算出の注目度): 19.89482062012177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the Transformer architecture has become ubiquitous in the machine
learning field, its adaptation to 3D shape recognition is non-trivial. Due to
its quadratic computational complexity, the self-attention operator quickly
becomes inefficient as the set of input points grows larger. Furthermore, we
find that the attention mechanism struggles to find useful connections between
individual points on a global scale. In order to alleviate these problems, we
propose a two-stage Point Transformer-in-Transformer (Point-TnT) approach which
combines local and global attention mechanisms, enabling both individual points
and patches of points to attend to each other effectively. Experiments on shape
classification show that such an approach provides more useful features for
downstream tasks than the baseline Transformer, while also being more
computationally efficient. In addition, we also extend our method to feature
matching for scene reconstruction, showing that it can be used in conjunction
with existing scene reconstruction pipelines.
- Abstract(参考訳): 機械学習の分野ではトランスフォーマーアーキテクチャが普及しているが、3d形状認識への適応は自明ではない。
二次計算の複雑さのため、自己注意演算子は入力点の集合が大きくなるとすぐに非効率になる。
さらに,注意機構は,グローバルスケールで個々の点間の有用な接続を見出すのに苦労していることがわかった。
これらの問題を緩和するために,局所的およびグローバルな注意機構を組み合わせた2段階のPoint Transformer-in-Transformer(Point-TnT)アプローチを提案する。
形状分類の実験は、このような手法がベースライントランスフォーマーよりも下流タスクに有用な機能を提供する一方で、計算効率も良いことを示している。
また,シーン再構築のための特徴マッチングにも拡張し,既存のシーン再構築パイプラインと組み合わせて使用できることを示す。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Representational Strengths and Limitations of Transformers [33.659870765923884]
我々は,注目層の表現力について,肯定的な結果と否定的な結果の両方を定めている。
トランスにおける大きな埋め込み次元の必要性と役割を示す。
また、注意層によって効率的に解ける自然変種も提示する。
論文 参考訳(メタデータ) (2023-06-05T14:05:04Z) - Exploiting Inductive Bias in Transformer for Point Cloud Classification
and Segmentation [22.587913528540465]
本稿では,新しいインダクティブバイアス支援トランス (IBT) 法を設計し,点間関係を学習する。
局所的特徴学習は相対的位置、注意的特徴プーリングを通じて行われる。
分類タスクと分割タスクにおいて,その優位性を実験的に示す。
論文 参考訳(メタデータ) (2023-04-27T12:17:35Z) - Self-positioning Point-based Transformer for Point Cloud Understanding [18.394318824968263]
セルフポジショニングポイントベースのトランスフォーマー(SPoTr)は、局所的およびグローバルな形状のコンテキストを複雑さを減らしてキャプチャするように設計されている。
SPoTrは、ScanObjectNNを用いた形状分類における以前の最良のモデルよりも精度が2.6%向上している。
論文 参考訳(メタデータ) (2023-03-29T04:27:11Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Point Cloud Recognition with Position-to-Structure Attention
Transformers [24.74805434602145]
Position-to-Structure Attention Transformer (PS-Former) は3Dポイントクラウド認識のためのトランスフォーマーベースのアルゴリズムである。
PS-Formerは、固定グリッド構造にポイントが配置されていない3Dポイントクラウド表現の課題に対処する。
PS-Formerは、分類、部分セグメンテーション、シーンセグメンテーションを含む3つの3Dポイントクラウドタスクに対して、競争力のある実験結果を示す。
論文 参考訳(メタデータ) (2022-10-05T05:40:33Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning [5.236787242129767]
本稿では,ポイント・ボクセル変換器 (PVT) と呼ばれる新しい3次元変換器を提案する。
提案手法はトランスフォーマーアーキテクチャの可能性を完全に活用し,効率よく正確な認識を行う。
論文 参考訳(メタデータ) (2021-08-13T06:07:57Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z) - Feature Pyramid Transformer [121.50066435635118]
我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。
FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。
我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-07-18T15:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。