論文の概要: SP$^2$T: Sparse Proxy Attention for Dual-stream Point Transformer
- arxiv url: http://arxiv.org/abs/2412.11540v2
- Date: Fri, 11 Jul 2025 10:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 14:01:04.878058
- Title: SP$^2$T: Sparse Proxy Attention for Dual-stream Point Transformer
- Title(参考訳): SP$^2$T:デュアルストリーム点変換器のスパースプロキシアテンション
- Authors: Jiaxu Wan, Hong Zhang, Ziqi He, Yangyan Deng, Qishu Wang, Ding Yuan, Yifan Yang,
- Abstract要約: Sparse Proxy Point Transformer (SP$2$T) を提案する。
SP$2$Tは、室内および屋外の3D理解ベンチマークで許容できるレイテンシで、最先端の結果を設定する。
- 参考スコア(独自算出の注目度): 9.162445137828966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point transformers have demonstrated remarkable progress in 3D understanding through expanded receptive fields (RF), but further expanding the RF leads to dilution in group attention and decreases detailed feature extraction capability. Proxy, which serves as abstract representations for simplifying feature maps, enables global RF. However, existing proxy-based approaches face critical limitations: Global proxies incur quadratic complexity for large-scale point clouds and suffer positional ambiguity, while local proxy alternatives struggle with 1) Unreliable sampling from the geometrically diverse point cloud, 2) Inefficient proxy interaction computation, and 3) Imbalanced local-global information fusion; To address these challenges, we propose Sparse Proxy Point Transformer (SP$^{2}$T) -- a local proxy-based dual-stream point transformer with three key innovations: First, for reliable sampling, spatial-wise proxy sampling with vertex-based associations enables robust sampling on geometrically diverse point clouds. Second, for efficient proxy interaction, sparse proxy attention with a table-based relative bias effectively achieves the interaction with efficient map-reduce computation. Third, for local-global information fusion, our dual-stream architecture maintains local-global balance through parallel branches. Comprehensive experiments reveal that SP$^{2}$T sets state-of-the-art results with acceptable latency on indoor and outdoor 3D comprehension benchmarks, demonstrating marked improvement (+3.8% mIoU vs. SPoTr@S3DIS, +22.9% mIoU vs. PointASNL@Sem.KITTI) compared to other proxy-based point cloud methods.
- Abstract(参考訳): 点変圧器は, 拡張受容野(RF)による3次元理解において顕著な進歩を示したが, RFのさらなる拡張はグループ注意の希薄化を招き, 詳細な特徴抽出能力の低下を招いた。
Proxyは機能マップを単純化するための抽象表現として機能し、グローバルRFを実現する。
しかし、既存のプロキシベースのアプローチは、重要な制限に直面している。 グローバルプロキシは、大規模なポイントクラウドと位置の曖昧さに苦しむ一方、ローカルプロキシ代替は苦労する。
1)幾何的に多様な点雲からの信頼できないサンプリング。
2)非効率なプロキシ相互作用計算、及び
3) 局所的局所的情報融合: これらの課題に対処するため, 局所的プロキシベースの2ストリーム点変換器 (SP$^{2}$T) を提案する。
第二に、効率的なプロキシインタラクションのために、テーブルベースの相対バイアスによるスパースプロキシアテンションは、効率的なマップ-リデュース計算との相互作用を効果的に達成する。
第3に,ローカル・グローバル情報融合では,並列分岐によるローカル・グローバルバランスを維持している。
SP$^{2}$Tは、屋内および屋外の3D理解ベンチマークで許容される遅延を許容し、顕著な改善(+3.8% mIoU vs. SPoTr@S3DIS, +22.9% mIoU vs. PointASNL@Sem.KITTI)を示す。
関連論文リスト
- ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding [47.927810413168345]
エージェントは言語命令に基づいてリアルタイムで3D環境と対話する必要がある。
既存の点雲拡大法は、しばしば多様体を改善するために退屈なプロセスを必要とする。
本稿では,マルチモーダルタスクに適したプロキシ変換を提案し,ポイントクラウド多様体を効率的に改善する。
論文 参考訳(メタデータ) (2025-02-26T15:53:41Z) - PointCFormer: a Relation-based Progressive Feature Extraction Network for Point Cloud Completion [19.503392612245474]
ポイントクラウドの完成は、不完全なポイントクラウドから完全な3D形状を再構築することを目的としている。
PointCFormerは,ロバストなグローバル保持と正確な局所的詳細キャプチャに最適化されたトランスフォーマーフレームワークである。
PointCFormerは、広く使用されているベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-12-11T14:37:21Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - GSTran: Joint Geometric and Semantic Coherence for Point Cloud Segmentation [33.72549134362884]
本稿では,セグメント化作業に適した新しい変圧器ネットワークであるGSTranを提案する。
提案するネットワークは主に,局所幾何学変換器と大域意味変換器の2つの主成分から構成される。
ShapeNetPartとS3DISベンチマークの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-21T12:12:37Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Double-Shot 3D Shape Measurement with a Dual-Branch Network for Structured Light Projection Profilometry [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できる。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - SWCF-Net: Similarity-weighted Convolution and Local-global Fusion for Efficient Large-scale Point Cloud Semantic Segmentation [10.328077317786342]
SWCF-Net という名前の類似度重み付き畳み込みとローカル・グローバル・フュージョン・ネットワークを提案する。
提案手法は計算コストを削減し,大規模点群を効率的に処理できる。
論文 参考訳(メタデータ) (2024-06-17T11:54:46Z) - SparseDet: A Simple and Effective Framework for Fully Sparse LiDAR-based 3D Object Detection [14.137208879448389]
LiDARベースのスパース3Dオブジェクト検出は、自動運転アプリケーションにおいて重要な役割を果たす。
既存のメソッドでは、単一の中央のvoxelの機能をオブジェクトプロキシとして使用するか、フォアグラウンドポイントの集約されたクラスタをオブジェクトプロキシとして扱う。
本稿では,スパースクエリをオブジェクトプロキシとして設計するSparseDetを提案する。
論文 参考訳(メタデータ) (2024-06-16T12:11:44Z) - APPT : Asymmetric Parallel Point Transformer for 3D Point Cloud
Understanding [20.87092793669536]
トランスフォーマーベースのネットワークは、3Dポイントクラウド理解において素晴らしいパフォーマンスを達成した。
これらの問題に対処するために,非対称並列点変換器(APPT)を提案する。
APPTは、ローカル詳細機能に集中しながら、ネットワーク全体を通して機能を取り込むことができる。
論文 参考訳(メタデータ) (2023-03-31T06:11:02Z) - ProxyFormer: Proxy Alignment Assisted Point Cloud Completion with
Missing Part Sensitive Transformer [26.027957774725344]
本稿では, ProxyFormer という新しいポイントクラウド補完手法を提案する。
点雲を既存の(入力)と欠落した(予測される)部分に分割し、各部分はそのプロキシを通じて情報を伝達する。
提案手法は,複数のベンチマークデータセットにおいて,最先端の補完ネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T09:25:37Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - ProxyMix: Proxy-based Mixup Training with Label Refinery for Source-Free
Domain Adaptation [73.14508297140652]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的としている。
Proxy-based Mixup training with label refinery (ProxyMix)を提案する。
3つの2D画像と1つの3Dポイントクラウドオブジェクト認識ベンチマークの実験は、ProxyMixがソースフリーなUDAタスクに最先端のパフォーマンスをもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-29T03:45:00Z) - Non-isotropy Regularization for Proxy-based Deep Metric Learning [78.18860829585182]
本稿では,プロキシに基づくDeep Metric Learningのための非等方正則化(mathbbNIR$)を提案する。
これにより、プロキシの周囲のサンプルの非等方分布を明示的に誘導して最適化することが可能になる。
実験では、競争力と最先端のパフォーマンスを達成しながら、$mathbbNIR$の一貫性のある一般化の利点を強調している。
論文 参考訳(メタデータ) (2022-03-16T11:13:20Z) - Full Transformer Framework for Robust Point Cloud Registration with Deep
Information Interaction [9.431484068349903]
最近のTransformerベースの手法は、ポイントクラウドの登録において高度なパフォーマンスを実現している。
近年のCNNは、現地の受容によるグローバルな関係のモデル化に失敗している。
トランスフォーマーの幅の浅いアーキテクチャと位置エンコーディングの欠如は、不明瞭な特徴抽出につながる。
論文 参考訳(メタデータ) (2021-12-17T08:40:52Z) - DSPoint: Dual-scale Point Cloud Recognition with High-frequency Fusion [17.797795508707864]
高周波核融合(DSPoint)を用いたデュアルスケール点雲認識を提案する。
ボクセルに畳み込みを施すという従来の設計を逆転させ、点に注意を向ける。
広く採用されているModelNet40,ShapeNet,S3DISの実験と改善により,DSPointの最先端性能が実証された。
論文 参考訳(メタデータ) (2021-11-19T17:25:54Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z) - BiPointNet: Binary Neural Network for Point Clouds [73.07852523426224]
BiPointNetは、ポイントクラウド上の効率的なディープラーニングのための最初のモデルバイナライズアプローチである。
BiPointNetは、実世界のリソース制約のあるデバイスで14.7倍のスピードアップと18.9倍のストレージを提供する。
論文 参考訳(メタデータ) (2020-10-12T07:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。