論文の概要: SP$^2$T: Sparse Proxy Attention for Dual-stream Point Transformer
- arxiv url: http://arxiv.org/abs/2412.11540v1
- Date: Mon, 16 Dec 2024 08:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:48.146191
- Title: SP$^2$T: Sparse Proxy Attention for Dual-stream Point Transformer
- Title(参考訳): SP$^2$T:デュアルストリーム点変換器のスパースプロキシアテンション
- Authors: Jiaxu Wan, Hong Zhang, Ziqi He, Qishu Wang, Ding Yuan, Yifan Yang,
- Abstract要約: ローカルプロキシベースのデュアルストリームポイントトランスであるSP$2$Tを提案する。
地域情報とグローバル情報のバランスを維持しながら、グローバルな受容分野を促進する。
我々のモデルは下流タスクにおけるSOTA性能を達成する。
- 参考スコア(独自算出の注目度): 9.621902552140478
- License:
- Abstract: In 3D understanding, point transformers have yielded significant advances in broadening the receptive field. However, further enhancement of the receptive field is hindered by the constraints of grouping attention. The proxy-based model, as a hot topic in image and language feature extraction, uses global or local proxies to expand the model's receptive field. But global proxy-based methods fail to precisely determine proxy positions and are not suited for tasks like segmentation and detection in the point cloud, and exist local proxy-based methods for image face difficulties in global-local balance, proxy sampling in various point clouds, and parallel cross-attention computation for sparse association. In this paper, we present SP$^2$T, a local proxy-based dual stream point transformer, which promotes global receptive field while maintaining a balance between local and global information. To tackle robust 3D proxy sampling, we propose a spatial-wise proxy sampling with vertex-based point proxy associations, ensuring robust point-cloud sampling in many scales of point cloud. To resolve economical association computation, we introduce sparse proxy attention combined with table-based relative bias, which enables low-cost and precise interactions between proxy and point features. Comprehensive experiments across multiple datasets reveal that our model achieves SOTA performance in downstream tasks. The code has been released in https://github.com/TerenceWallel/Sparse-Proxy-Point-Transformer .
- Abstract(参考訳): 3次元理解において、点変換器は受容場を広げる上で大きな進歩をもたらした。
しかしながら、受容野のさらなる強化は、グループ化注意の制約によって妨げられる。
プロキシベースのモデルは、画像と言語の特徴抽出におけるホットトピックとして、グローバルまたはローカルプロキシを使用して、モデルの受容領域を拡張する。
しかし、グローバルプロキシベースの手法は、プロキシの位置を正確に決定できず、ポイントクラウドのセグメンテーションや検出といったタスクには適していない。
本稿では,ローカルプロキシベースのデュアルストリームポイント変換器であるSP$^2$Tについて述べる。
頑健な3Dプロキシ・サンプリングに取り組むために,頂点に基づく点プロキシ・アソシエーションを用いた空間的ワイド・プロキシ・サンプリングを提案し,多くの点クラウドにおいてロバストな点クラウド・サンプリングを実現する。
経済的な相関計算を解決するため,表に基づく相対バイアスと相まってスパースプロキシアテンションを導入し,プロキシとポイントの特徴間の低コストで正確な相互作用を可能にする。
複数のデータセットにまたがる総合的な実験により、我々のモデルは下流タスクにおいてSOTAのパフォーマンスを達成することが明らかになった。
コードはhttps://github.com/TerenceWallel/Sparse-Proxy-Point-Transformerでリリースされた。
関連論文リスト
- GSTran: Joint Geometric and Semantic Coherence for Point Cloud Segmentation [33.72549134362884]
本稿では,セグメント化作業に適した新しい変圧器ネットワークであるGSTranを提案する。
提案するネットワークは主に,局所幾何学変換器と大域意味変換器の2つの主成分から構成される。
ShapeNetPartとS3DISベンチマークの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-21T12:12:37Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - SparseDet: A Simple and Effective Framework for Fully Sparse LiDAR-based 3D Object Detection [14.137208879448389]
LiDARベースのスパース3Dオブジェクト検出は、自動運転アプリケーションにおいて重要な役割を果たす。
既存のメソッドでは、単一の中央のvoxelの機能をオブジェクトプロキシとして使用するか、フォアグラウンドポイントの集約されたクラスタをオブジェクトプロキシとして扱う。
本稿では,スパースクエリをオブジェクトプロキシとして設計するSparseDetを提案する。
論文 参考訳(メタデータ) (2024-06-16T12:11:44Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - ProxyFormer: Proxy Alignment Assisted Point Cloud Completion with
Missing Part Sensitive Transformer [26.027957774725344]
本稿では, ProxyFormer という新しいポイントクラウド補完手法を提案する。
点雲を既存の(入力)と欠落した(予測される)部分に分割し、各部分はそのプロキシを通じて情報を伝達する。
提案手法は,複数のベンチマークデータセットにおいて,最先端の補完ネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T09:25:37Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - ProxyMix: Proxy-based Mixup Training with Label Refinery for Source-Free
Domain Adaptation [73.14508297140652]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的としている。
Proxy-based Mixup training with label refinery (ProxyMix)を提案する。
3つの2D画像と1つの3Dポイントクラウドオブジェクト認識ベンチマークの実験は、ProxyMixがソースフリーなUDAタスクに最先端のパフォーマンスをもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-29T03:45:00Z) - Non-isotropy Regularization for Proxy-based Deep Metric Learning [78.18860829585182]
本稿では,プロキシに基づくDeep Metric Learningのための非等方正則化(mathbbNIR$)を提案する。
これにより、プロキシの周囲のサンプルの非等方分布を明示的に誘導して最適化することが可能になる。
実験では、競争力と最先端のパフォーマンスを達成しながら、$mathbbNIR$の一貫性のある一般化の利点を強調している。
論文 参考訳(メタデータ) (2022-03-16T11:13:20Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。