論文の概要: ScatterFormer: Efficient Voxel Transformer with Scattered Linear
Attention
- arxiv url: http://arxiv.org/abs/2401.00912v1
- Date: Mon, 1 Jan 2024 02:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:08:42.310702
- Title: ScatterFormer: Efficient Voxel Transformer with Scattered Linear
Attention
- Title(参考訳): scatterformer: 線形に散在した効率的なvoxel変圧器
- Authors: Chenhang He, Ruihuang Li, Guowen Zhang and Lei Zhang
- Abstract要約: ウィンドウベースのトランスフォーマーは、大規模なクラウド理解において強力な能力を示している。
現在の方法では、各ウィンドウ内のボクセルを同じサイズの複数のサブセットに分割するが、ボクセルのソートとパディングにコストがかかる。
我々はScatterFormerを紹介した。これは私たちの最高の知識に初めて、可変長のボクセル集合に直接注意を向けることができた。
- 参考スコア(独自算出の注目度): 14.601610019806762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Window-based transformers have demonstrated strong ability in large-scale
point cloud understanding by capturing context-aware representations with
affordable attention computation in a more localized manner. However, because
of the sparse nature of point clouds, the number of voxels per window varies
significantly. Current methods partition the voxels in each window into
multiple subsets of equal size, which cost expensive overhead in sorting and
padding the voxels, making them run slower than sparse convolution based
methods. In this paper, we present ScatterFormer, which, for the first time to
our best knowledge, could directly perform attention on voxel sets with
variable length. The key of ScatterFormer lies in the innovative Scatter Linear
Attention (SLA) module, which leverages the linear attention mechanism to
process in parallel all voxels scattered in different windows. Harnessing the
hierarchical computation units of the GPU and matrix blocking algorithm, we
reduce the latency of the proposed SLA module to less than 1 ms on moderate
GPUs. Besides, we develop a cross-window interaction module to simultaneously
enhance the local representation and allow the information flow across windows,
eliminating the need for window shifting. Our proposed ScatterFormer
demonstrates 73 mAP (L2) on the large-scale Waymo Open Dataset and 70.5 NDS on
the NuScenes dataset, running at an outstanding detection rate of 28 FPS. Code
is available at https://github.com/skyhehe123/ScatterFormer
- Abstract(参考訳): ウィンドウベースのトランスフォーマーは、よりローカライズされた方法で手頃な注意計算でコンテキスト認識表現をキャプチャすることで、大規模ポイントクラウド理解において強力な能力を示している。
しかし、点雲のばらばらな性質のため、ウィンドウ当たりのボクセル数は著しく変化する。
現在のメソッドでは、各ウィンドウ内のvoxelを同じサイズの複数のサブセットに分割しているため、voxelのソートとパディングにコストがかかるため、スパース畳み込みベースのメソッドよりも動作が遅い。
本稿では,我々の知る限りでは初めて,可変長のボクセル集合に対して直接注意を向けることのできるスキャッタフォーマを提案する。
scatterformerの鍵は、異なるウィンドウに散在するすべてのボクセルを並列に処理するために線形注意機構を利用する革新的なslaモジュールにある。
また,GPUと行列ブロッキングアルゴリズムの階層計算ユニットを併用することにより,提案したSLAモジュールの遅延を1ミリ秒未満に短縮する。
さらに,局所表現を同時に拡張し,ウィンドウ間の情報フローを可能とし,ウィンドウシフトを不要としたウィンドウ間相互作用モジュールを開発した。
提案するScatterFormerでは,大規模なWaymo Open Dataset上で73mAP(L2),NuScenesデータセット上で70.5NDSを,28FPSの優れた検出速度で実行している。
コードはhttps://github.com/skyhehe123/ScatterFormerで入手できる。
関連論文リスト
- FlatFormer: Flattened Window Attention for Efficient Point Cloud
Transformer [30.596658616831945]
トランスフォーマーはCNNに代わるものとして、多くのモダリティで有効であることが証明されている。
本稿では、FlatFormerを用いて、空間近接を交換することで、より優れた計算正則性を実現することにより、このレイテンシギャップを解消する。
論文 参考訳(メタデータ) (2023-01-20T18:59:57Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - MixFormer: Mixing Features across Windows and Dimensions [68.86393312123168]
ローカルウインドウの自己注意は視覚タスクにおいて顕著に機能するが、限定的な受容野と弱いモデリング能力の問題に悩まされている。
これは主に、オーバーラップされていないウィンドウ内で自己注意を行い、チャネル次元に重みを共有するためである。
局所窓の自己アテンションと深度ワイドの畳み込みを並列設計で組み合わせ, クロスウィンドウ接続をモデル化し, 受容場を拡大する。
論文 参考訳(メタデータ) (2022-04-06T03:13:50Z) - Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection from
Point Clouds [16.69887974230884]
Transformerは多くの2次元視覚タスクで有望なパフォーマンスを示した。
ポイントクラウドは長いシーケンスであり、3D空間に不均一に分散しているため、大規模なポイントクラウドデータの自己アテンションを計算するのは困難である。
既存の方法は、通常、ポイントを同じ大きさのクラスタにグループ化したり、離散化された表現に対して畳み込み的な自己アテンションを実行することによって、自己アテンションを局所的に計算する。
本稿では,Voxel Set Transformer (VoxSeT) と呼ばれる新しいボクセルベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-19T12:31:46Z) - Fast Point Voxel Convolution Neural Network with Selective Feature
Fusion for Point Cloud Semantic Segmentation [7.557684072809662]
本稿では,ポイントクラウド解析のための軽量畳み込みニューラルネットワークを提案する。
本手法はサンプリングなしで全点集合上で動作し,効率よく性能を向上する。
論文 参考訳(メタデータ) (2021-09-23T19:39:01Z) - RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR
Point Cloud Segmentation [28.494690309193068]
RPVNetと呼ばれる、新しいレンジポイント・ボクセル融合ネットワークを提案する。
このネットワークでは,これら3つの視点を相互に相互に相互作用する深層融合フレームワークを考案する。
この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。
論文 参考訳(メタデータ) (2021-03-24T04:24:12Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。