論文の概要: ConDaFormer: Disassembled Transformer with Local Structure Enhancement
for 3D Point Cloud Understanding
- arxiv url: http://arxiv.org/abs/2312.11112v1
- Date: Mon, 18 Dec 2023 11:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 20:17:14.277505
- Title: ConDaFormer: Disassembled Transformer with Local Structure Enhancement
for 3D Point Cloud Understanding
- Title(参考訳): ConDaFormer: 3Dポイントクラウド理解のための局所構造強化型分解変換器
- Authors: Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Gui-Song Xia,
Dacheng Tao
- Abstract要約: トランスフォーマーは、最近3Dポイントクラウド理解のために研究されている。
0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。
本稿では,ConDaFormerという新しい変圧器ブロックを開発する。
- 参考スコア(独自算出の注目度): 105.98609765389895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have been recently explored for 3D point cloud understanding
with impressive progress achieved. A large number of points, over 0.1 million,
make the global self-attention infeasible for point cloud data. Thus, most
methods propose to apply the transformer in a local region, e.g., spherical or
cubic window. However, it still contains a large number of Query-Key pairs,
which requires high computational costs. In addition, previous methods usually
learn the query, key, and value using a linear projection without modeling the
local 3D geometric structure. In this paper, we attempt to reduce the costs and
model the local geometry prior by developing a new transformer block, named
ConDaFormer. Technically, ConDaFormer disassembles the cubic window into three
orthogonal 2D planes, leading to fewer points when modeling the attention in a
similar range. The disassembling operation is beneficial to enlarging the range
of attention without increasing the computational complexity, but ignores some
contexts. To provide a remedy, we develop a local structure enhancement
strategy that introduces a depth-wise convolution before and after the
attention. This scheme can also capture the local geometric information. Taking
advantage of these designs, ConDaFormer captures both long-range contextual
information and local priors. The effectiveness is demonstrated by experimental
results on several 3D point cloud understanding benchmarks. Code is available
at https://github.com/LHDuan/ConDaFormer .
- Abstract(参考訳): トランスフォーマーは最近、3Dポイントクラウド理解のために調査され、目覚ましい進歩を遂げた。
0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。
したがって、ほとんどの方法は、例えば球面窓や立方体窓のような局所領域に変換器を適用することを提案する。
しかし、それでも高い計算コストを必要とする大量のクエリーキーペアを含んでいる。
加えて、従来の手法は通常、局所的な3次元幾何学構造をモデル化せずに線形射影を用いてクエリ、キー、値を学ぶ。
本稿では,新しい変圧器ブロックであるConDaFormerの開発に先立って,コスト削減と局所幾何学のモデル化を試みる。
技術的には、ConDaFormerは立方体窓を3つの直交2次元平面に分解し、同様の範囲で注意をモデル化する際のポイントを減らした。
分解操作は、計算複雑性を増大させることなく注意範囲を拡大するのに有益であるが、いくつかの文脈を無視する。
注意の前後に深部的な畳み込みをもたらす局所構造強化戦略を開発する。
このスキームは局所幾何情報をキャプチャすることもできる。
これらの設計を活用することで、ConDaFormerは長距離コンテキスト情報とローカル事前情報をキャプチャする。
この効果は、いくつかの3dポイントクラウド理解ベンチマークで実験結果によって実証される。
コードはhttps://github.com/LHDuan/ConDaFormerで入手できる。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Monocular Scene Reconstruction with 3D SDF Transformers [17.565474518578178]
本研究では,より優れた3次元特徴集約のために3次元CNNを代替するSDFトランスフォーマーネットワークを提案する。
複数のデータセットの実験により、この3Dトランスフォーマーネットワークはより正確で完全な再構成を生成することが示された。
論文 参考訳(メタデータ) (2023-01-31T09:54:20Z) - SEFormer: Structure Embedding Transformer for 3D Object Detection [22.88983416605276]
Structure-Embedding TransFormer (SEFormer)は、ローカル構造を従来のTransformerとして保存するが、ローカル構造をエンコードする機能もある。
SEFormerは79.02%のmAPを達成しており、これは既存の作業よりも1.2%高い。
論文 参考訳(メタデータ) (2022-09-05T03:38:12Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - KAPLAN: A 3D Point Descriptor for Shape Completion [80.15764700137383]
KAPLANは、一連の2D畳み込みを通じて局所的な形状情報を集約する3Dポイント記述子である。
各平面において、正規点や平面間距離のような点特性は2次元グリッドに集約され、効率的な2次元畳み込みエンコーダを持つ特徴表現に抽象化される。
公開データセットの実験では、KAPLANが3D形状の完成のために最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2020-07-31T21:56:08Z) - Local Implicit Grid Representations for 3D Scenes [24.331110387905962]
本稿では,拡張性と汎用性のために設計された新しい3次元形状表現であるLocal Implicit Grid Representationsを紹介する。
我々はオートエンコーダを訓練し、その大きさで3次元形状の局所的な作物の埋め込みを学習する。
次に,デコーダを形状最適化のコンポーネントとして使用し,重なり合う作物の正規格子上の潜伏符号の集合を解く。
論文 参考訳(メタデータ) (2020-03-19T18:58:13Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。