論文の概要: Flash3D: Super-scaling Point Transformers through Joint Hardware-Geometry Locality
- arxiv url: http://arxiv.org/abs/2412.16481v1
- Date: Sat, 21 Dec 2024 04:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:49.535668
- Title: Flash3D: Super-scaling Point Transformers through Joint Hardware-Geometry Locality
- Title(参考訳): Flash3D: ハードウェアと幾何学の融合によるスーパースケーリングポイント変換器
- Authors: Liyan Chen, Gregory P. Meyer, Zaiwei Zhang, Eric M. Wolff, Paul Vernaza,
- Abstract要約: Flash3D Transformerは、パーフェクト空間ハッシュ(PSH)に基づく原理的局所性機構を通じて、幾何学的局所性とGPUタイリングを整列する
Flash3Dはベンチマークデータセットで最先端のPTv3結果を上回っ、2.25倍の速度向上と2.4倍のメモリ効率向上を実現している。
- 参考スコア(独自算出の注目度): 11.05338651486841
- License:
- Abstract: Recent efforts recognize the power of scale in 3D learning (e.g. PTv3) and attention mechanisms (e.g. FlashAttention). However, current point cloud backbones fail to holistically unify geometric locality, attention mechanisms, and GPU architectures in one view. In this paper, we introduce Flash3D Transformer, which aligns geometric locality and GPU tiling through a principled locality mechanism based on Perfect Spatial Hashing (PSH). The common alignment with GPU tiling naturally fuses our PSH locality mechanism with FlashAttention at negligible extra cost. This mechanism affords flexible design choices throughout the backbone that result in superior downstream task results. Flash3D outperforms state-of-the-art PTv3 results on benchmark datasets, delivering a 2.25x speed increase and 2.4x memory efficiency boost. This efficiency enables scaling to wider attention scopes and larger models without additional overhead. Such scaling allows Flash3D to achieve even higher task accuracies than PTv3 under the same compute budget.
- Abstract(参考訳): 近年の取り組みは、3D学習におけるスケールのパワー(eg PTv3)と注意機構(eg FlashAttention)を認識している。
しかし、現在のクラウドバックボーンは、幾何学的局所性、アテンションメカニズム、GPUアーキテクチャを一目で統一することができない。
本稿では,パーフェクト空間ハッシュ(PSH)に基づく原理的局所性機構により,幾何学的局所性とGPUタイリングを整列するFlash3Dトランスフォーマーを提案する。
GPUタイリングと共通するアライメントは、PSHのローカリティメカニズムを、無視できる余分なコストでFlashAttentionと自然に融合させます。
このメカニズムは、より優れたダウンストリームタスク結果をもたらすバックボーン全体の柔軟な設計選択を可能にする。
Flash3Dはベンチマークデータセットで最先端のPTv3結果を上回っ、2.25倍の速度向上と2.4倍のメモリ効率向上を実現している。
この効率性により、さらなるオーバーヘッドを伴わずに、より広い関心範囲とより大きなモデルへのスケーリングが可能になる。
このようなスケーリングにより、同じ計算予算の下で、Flash3DはPTv3よりも高いタスク精度を達成することができる。
関連論文リスト
- FlashGS: Efficient 3D Gaussian Splatting for Large-scale and High-resolution Rendering [11.727367585102112]
FlashGSは、3D Gaussian Splattingの効率的な差別化を容易にするように設計されている。
FlashGSの性能評価は、多種多様な合成シーンと実世界の大規模シーンで行われている。
結果は、FlashGSの優れたパフォーマンスとリソース最適化能力を強調し、それを3Dレンダリングの領域における恐ろしいツールとして位置づけた。
論文 参考訳(メタデータ) (2024-08-15T06:27:42Z) - Spec-Gaussian: Anisotropic View-Dependent Appearance for 3D Gaussian Splatting [55.71424195454963]
Spec-Gaussian は球面調和の代わりに異方性球面ガウス場を利用するアプローチである。
実験結果から,本手法はレンダリング品質の面で既存の手法を超越していることが示された。
この改良は、3D GSの適用性を高めて、特異面と異方面の複雑なシナリオを扱う。
論文 参考訳(メタデータ) (2024-02-24T17:22:15Z) - ConDaFormer: Disassembled Transformer with Local Structure Enhancement
for 3D Point Cloud Understanding [105.98609765389895]
トランスフォーマーは、最近3Dポイントクラウド理解のために研究されている。
0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。
本稿では,ConDaFormerという新しい変圧器ブロックを開発する。
論文 参考訳(メタデータ) (2023-12-18T11:19:45Z) - Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-15T18:59:59Z) - Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering [71.44349029439944]
最近の3次元ガウス散乱法は、最先端のレンダリング品質と速度を達成している。
局所的な3Dガウス分布にアンカーポイントを用いるScaffold-GSを導入する。
提案手法は,高品質なレンダリングを実現しつつ,冗長なガウスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2023-11-30T17:58:57Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - APPT : Asymmetric Parallel Point Transformer for 3D Point Cloud
Understanding [20.87092793669536]
トランスフォーマーベースのネットワークは、3Dポイントクラウド理解において素晴らしいパフォーマンスを達成した。
これらの問題に対処するために,非対称並列点変換器(APPT)を提案する。
APPTは、ローカル詳細機能に集中しながら、ネットワーク全体を通して機能を取り込むことができる。
論文 参考訳(メタデータ) (2023-03-31T06:11:02Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Focal-PETR: Embracing Foreground for Efficient Multi-Camera 3D Object
Detection [11.13693561702228]
支配的なマルチカメラ3D検出パラダイムは、明示的な3D特徴構造に基づいている。
他の方法では、画像トークンと3Dオブジェクトの関係を構築するために幾何学的位置符号化が暗黙的に導入されている。
本稿では,インスタンス誘導型監視モジュールと空間アライメントモジュールを備えたFocal-PETRを提案する。
論文 参考訳(メタデータ) (2022-12-11T13:38:54Z) - PatchFormer: A Versatile 3D Transformer Based on Patch Attention [0.358439716487063]
我々は、アテンションマップが計算されるより小さなベースセットを適応的に学習するためにパッチアテンションを導入する。
これらの基底に対する重み付けの和により、パッチアテンションはグローバルな形状のコンテキストをキャプチャするだけでなく、入力サイズに対する線形複雑度も達成する。
我々のネットワークは,従来の3Dトランスよりも7.3倍のスピードアップで,一般的な3D認識タスクにおいて高い精度を実現している。
論文 参考訳(メタデータ) (2021-10-30T08:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。