論文の概要: SP$^2$T: Sparse Proxy Attention for Dual-stream Point Transformer
- arxiv url: http://arxiv.org/abs/2412.11540v1
- Date: Mon, 16 Dec 2024 08:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:50:00.267282
- Title: SP$^2$T: Sparse Proxy Attention for Dual-stream Point Transformer
- Title(参考訳): SP$^2$T:デュアルストリーム点変換器のスパースプロキシアテンション
- Authors: Jiaxu Wan, Hong Zhang, Ziqi He, Qishu Wang, Ding Yuan, Yifan Yang,
- Abstract要約: ローカルプロキシベースのデュアルストリームポイントトランスであるSP$2$Tを提案する。
地域情報とグローバル情報のバランスを維持しながら、グローバルな受容分野を促進する。
我々のモデルは下流タスクにおけるSOTA性能を達成する。
- 参考スコア(独自算出の注目度): 9.621902552140478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In 3D understanding, point transformers have yielded significant advances in broadening the receptive field. However, further enhancement of the receptive field is hindered by the constraints of grouping attention. The proxy-based model, as a hot topic in image and language feature extraction, uses global or local proxies to expand the model's receptive field. But global proxy-based methods fail to precisely determine proxy positions and are not suited for tasks like segmentation and detection in the point cloud, and exist local proxy-based methods for image face difficulties in global-local balance, proxy sampling in various point clouds, and parallel cross-attention computation for sparse association. In this paper, we present SP$^2$T, a local proxy-based dual stream point transformer, which promotes global receptive field while maintaining a balance between local and global information. To tackle robust 3D proxy sampling, we propose a spatial-wise proxy sampling with vertex-based point proxy associations, ensuring robust point-cloud sampling in many scales of point cloud. To resolve economical association computation, we introduce sparse proxy attention combined with table-based relative bias, which enables low-cost and precise interactions between proxy and point features. Comprehensive experiments across multiple datasets reveal that our model achieves SOTA performance in downstream tasks. The code has been released in https://github.com/TerenceWallel/Sparse-Proxy-Point-Transformer .
- Abstract(参考訳): 3次元理解において、点変換器は受容場を広げる上で大きな進歩をもたらした。
しかしながら、受容野のさらなる強化は、グループ化注意の制約によって妨げられる。
プロキシベースのモデルは、画像と言語の特徴抽出におけるホットトピックとして、グローバルまたはローカルプロキシを使用して、モデルの受容領域を拡張する。
しかし、グローバルプロキシベースの手法は、プロキシの位置を正確に決定できず、ポイントクラウドのセグメンテーションや検出といったタスクには適していない。
本稿では,ローカルプロキシベースのデュアルストリームポイント変換器であるSP$^2$Tについて述べる。
頑健な3Dプロキシ・サンプリングに取り組むために,頂点に基づく点プロキシ・アソシエーションを用いた空間的ワイド・プロキシ・サンプリングを提案し,多くの点クラウドにおいてロバストな点クラウド・サンプリングを実現する。
経済的な相関計算を解決するため,表に基づく相対バイアスと相まってスパースプロキシアテンションを導入し,プロキシとポイントの特徴間の低コストで正確な相互作用を可能にする。
複数のデータセットにまたがる総合的な実験により、我々のモデルは下流タスクにおいてSOTAのパフォーマンスを達成することが明らかになった。
コードはhttps://github.com/TerenceWallel/Sparse-Proxy-Point-Transformerでリリースされた。
関連論文リスト
- ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding [47.927810413168345]
エージェントは言語命令に基づいてリアルタイムで3D環境と対話する必要がある。
既存の点雲拡大法は、しばしば多様体を改善するために退屈なプロセスを必要とする。
本稿では,マルチモーダルタスクに適したプロキシ変換を提案し,ポイントクラウド多様体を効率的に改善する。
論文 参考訳(メタデータ) (2025-02-26T15:53:41Z) - PointCFormer: a Relation-based Progressive Feature Extraction Network for Point Cloud Completion [19.503392612245474]
ポイントクラウドの完成は、不完全なポイントクラウドから完全な3D形状を再構築することを目的としている。
PointCFormerは,ロバストなグローバル保持と正確な局所的詳細キャプチャに最適化されたトランスフォーマーフレームワークである。
PointCFormerは、広く使用されているベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-12-11T14:37:21Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - GSTran: Joint Geometric and Semantic Coherence for Point Cloud Segmentation [33.72549134362884]
本稿では,セグメント化作業に適した新しい変圧器ネットワークであるGSTranを提案する。
提案するネットワークは主に,局所幾何学変換器と大域意味変換器の2つの主成分から構成される。
ShapeNetPartとS3DISベンチマークの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-21T12:12:37Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Double-Shot 3D Shape Measurement with a Dual-Branch Network for Structured Light Projection Profilometry [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できる。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - SWCF-Net: Similarity-weighted Convolution and Local-global Fusion for Efficient Large-scale Point Cloud Semantic Segmentation [10.328077317786342]
SWCF-Net という名前の類似度重み付き畳み込みとローカル・グローバル・フュージョン・ネットワークを提案する。
提案手法は計算コストを削減し,大規模点群を効率的に処理できる。
論文 参考訳(メタデータ) (2024-06-17T11:54:46Z) - SparseDet: A Simple and Effective Framework for Fully Sparse LiDAR-based 3D Object Detection [14.137208879448389]
LiDARベースのスパース3Dオブジェクト検出は、自動運転アプリケーションにおいて重要な役割を果たす。
既存のメソッドでは、単一の中央のvoxelの機能をオブジェクトプロキシとして使用するか、フォアグラウンドポイントの集約されたクラスタをオブジェクトプロキシとして扱う。
本稿では,スパースクエリをオブジェクトプロキシとして設計するSparseDetを提案する。
論文 参考訳(メタデータ) (2024-06-16T12:11:44Z) - APPT : Asymmetric Parallel Point Transformer for 3D Point Cloud
Understanding [20.87092793669536]
トランスフォーマーベースのネットワークは、3Dポイントクラウド理解において素晴らしいパフォーマンスを達成した。
これらの問題に対処するために,非対称並列点変換器(APPT)を提案する。
APPTは、ローカル詳細機能に集中しながら、ネットワーク全体を通して機能を取り込むことができる。
論文 参考訳(メタデータ) (2023-03-31T06:11:02Z) - ProxyFormer: Proxy Alignment Assisted Point Cloud Completion with
Missing Part Sensitive Transformer [26.027957774725344]
本稿では, ProxyFormer という新しいポイントクラウド補完手法を提案する。
点雲を既存の(入力)と欠落した(予測される)部分に分割し、各部分はそのプロキシを通じて情報を伝達する。
提案手法は,複数のベンチマークデータセットにおいて,最先端の補完ネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T09:25:37Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - ProxyMix: Proxy-based Mixup Training with Label Refinery for Source-Free
Domain Adaptation [73.14508297140652]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的としている。
Proxy-based Mixup training with label refinery (ProxyMix)を提案する。
3つの2D画像と1つの3Dポイントクラウドオブジェクト認識ベンチマークの実験は、ProxyMixがソースフリーなUDAタスクに最先端のパフォーマンスをもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-29T03:45:00Z) - Non-isotropy Regularization for Proxy-based Deep Metric Learning [78.18860829585182]
本稿では,プロキシに基づくDeep Metric Learningのための非等方正則化(mathbbNIR$)を提案する。
これにより、プロキシの周囲のサンプルの非等方分布を明示的に誘導して最適化することが可能になる。
実験では、競争力と最先端のパフォーマンスを達成しながら、$mathbbNIR$の一貫性のある一般化の利点を強調している。
論文 参考訳(メタデータ) (2022-03-16T11:13:20Z) - Full Transformer Framework for Robust Point Cloud Registration with Deep
Information Interaction [9.431484068349903]
最近のTransformerベースの手法は、ポイントクラウドの登録において高度なパフォーマンスを実現している。
近年のCNNは、現地の受容によるグローバルな関係のモデル化に失敗している。
トランスフォーマーの幅の浅いアーキテクチャと位置エンコーディングの欠如は、不明瞭な特徴抽出につながる。
論文 参考訳(メタデータ) (2021-12-17T08:40:52Z) - DSPoint: Dual-scale Point Cloud Recognition with High-frequency Fusion [17.797795508707864]
高周波核融合(DSPoint)を用いたデュアルスケール点雲認識を提案する。
ボクセルに畳み込みを施すという従来の設計を逆転させ、点に注意を向ける。
広く採用されているModelNet40,ShapeNet,S3DISの実験と改善により,DSPointの最先端性能が実証された。
論文 参考訳(メタデータ) (2021-11-19T17:25:54Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z) - BiPointNet: Binary Neural Network for Point Clouds [73.07852523426224]
BiPointNetは、ポイントクラウド上の効率的なディープラーニングのための最初のモデルバイナライズアプローチである。
BiPointNetは、実世界のリソース制約のあるデバイスで14.7倍のスピードアップと18.9倍のストレージを提供する。
論文 参考訳(メタデータ) (2020-10-12T07:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。