論文の概要: Flash3D: Super-scaling Point Transformers through Joint Hardware-Geometry Locality
- arxiv url: http://arxiv.org/abs/2412.16481v1
- Date: Sat, 21 Dec 2024 04:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:49.535668
- Title: Flash3D: Super-scaling Point Transformers through Joint Hardware-Geometry Locality
- Title(参考訳): Flash3D: ハードウェアと幾何学の融合によるスーパースケーリングポイント変換器
- Authors: Liyan Chen, Gregory P. Meyer, Zaiwei Zhang, Eric M. Wolff, Paul Vernaza,
- Abstract要約: Flash3D Transformerは、パーフェクト空間ハッシュ(PSH)に基づく原理的局所性機構を通じて、幾何学的局所性とGPUタイリングを整列する
Flash3Dはベンチマークデータセットで最先端のPTv3結果を上回っ、2.25倍の速度向上と2.4倍のメモリ効率向上を実現している。
- 参考スコア(独自算出の注目度): 11.05338651486841
- License:
- Abstract: Recent efforts recognize the power of scale in 3D learning (e.g. PTv3) and attention mechanisms (e.g. FlashAttention). However, current point cloud backbones fail to holistically unify geometric locality, attention mechanisms, and GPU architectures in one view. In this paper, we introduce Flash3D Transformer, which aligns geometric locality and GPU tiling through a principled locality mechanism based on Perfect Spatial Hashing (PSH). The common alignment with GPU tiling naturally fuses our PSH locality mechanism with FlashAttention at negligible extra cost. This mechanism affords flexible design choices throughout the backbone that result in superior downstream task results. Flash3D outperforms state-of-the-art PTv3 results on benchmark datasets, delivering a 2.25x speed increase and 2.4x memory efficiency boost. This efficiency enables scaling to wider attention scopes and larger models without additional overhead. Such scaling allows Flash3D to achieve even higher task accuracies than PTv3 under the same compute budget.
- Abstract(参考訳): 近年の取り組みは、3D学習におけるスケールのパワー(eg PTv3)と注意機構(eg FlashAttention)を認識している。
しかし、現在のクラウドバックボーンは、幾何学的局所性、アテンションメカニズム、GPUアーキテクチャを一目で統一することができない。
本稿では,パーフェクト空間ハッシュ(PSH)に基づく原理的局所性機構により,幾何学的局所性とGPUタイリングを整列するFlash3Dトランスフォーマーを提案する。
GPUタイリングと共通するアライメントは、PSHのローカリティメカニズムを、無視できる余分なコストでFlashAttentionと自然に融合させます。
このメカニズムは、より優れたダウンストリームタスク結果をもたらすバックボーン全体の柔軟な設計選択を可能にする。
Flash3Dはベンチマークデータセットで最先端のPTv3結果を上回っ、2.25倍の速度向上と2.4倍のメモリ効率向上を実現している。
この効率性により、さらなるオーバーヘッドを伴わずに、より広い関心範囲とより大きなモデルへのスケーリングが可能になる。
このようなスケーリングにより、同じ計算予算の下で、Flash3DはPTv3よりも高いタスク精度を達成することができる。
関連論文リスト
- Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity [59.80405282381126]
拡散変換器(DiT)はビデオ生成を支配しているが、その高い計算コストは現実の応用性を著しく制限する。
Sparse VideoGen (SVG) と呼ばれる3次元フルアテンションに固有の空間を利用して推論効率を向上する学習自由フレームワークを提案する。
SVGはCagVideoX-v1.5とHunyuanVideoで最大2.28倍と2.33倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-03T19:29:16Z) - Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives [60.217580865237835]
3D Gaussian Splatting (3D-GS)は、3D Gaussian のパラメトリック点雲としてシーンをモデル化することで、新しいビューをリアルタイムにレンダリングすることのできる最近の3Dシーン再構築技術である。
3D-GSでは,レンダリング速度,モデルサイズ,トレーニング時間の大幅な改善を実現し,2つの重要な非効率性に対処する。
我々のSpeedy-Splatアプローチはこれらのテクニックを組み合わせることで、Mip-NeRF 360、Tamps & Temples、Deep Blendingのデータセットから、平均レンダリング速度を6.71ドル(約6万6000円)で加速します。
論文 参考訳(メタデータ) (2024-11-30T20:25:56Z) - Spec-Gaussian: Anisotropic View-Dependent Appearance for 3D Gaussian Splatting [55.71424195454963]
Spec-Gaussian は球面調和の代わりに異方性球面ガウス場を利用するアプローチである。
実験結果から,本手法はレンダリング品質の面で既存の手法を超越していることが示された。
この改良は、3D GSの適用性を高めて、特異面と異方面の複雑なシナリオを扱う。
論文 参考訳(メタデータ) (2024-02-24T17:22:15Z) - Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-15T18:59:59Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - APPT : Asymmetric Parallel Point Transformer for 3D Point Cloud
Understanding [20.87092793669536]
トランスフォーマーベースのネットワークは、3Dポイントクラウド理解において素晴らしいパフォーマンスを達成した。
これらの問題に対処するために,非対称並列点変換器(APPT)を提案する。
APPTは、ローカル詳細機能に集中しながら、ネットワーク全体を通して機能を取り込むことができる。
論文 参考訳(メタデータ) (2023-03-31T06:11:02Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Focal-PETR: Embracing Foreground for Efficient Multi-Camera 3D Object
Detection [11.13693561702228]
支配的なマルチカメラ3D検出パラダイムは、明示的な3D特徴構造に基づいている。
他の方法では、画像トークンと3Dオブジェクトの関係を構築するために幾何学的位置符号化が暗黙的に導入されている。
本稿では,インスタンス誘導型監視モジュールと空間アライメントモジュールを備えたFocal-PETRを提案する。
論文 参考訳(メタデータ) (2022-12-11T13:38:54Z) - PatchFormer: A Versatile 3D Transformer Based on Patch Attention [0.358439716487063]
我々は、アテンションマップが計算されるより小さなベースセットを適応的に学習するためにパッチアテンションを導入する。
これらの基底に対する重み付けの和により、パッチアテンションはグローバルな形状のコンテキストをキャプチャするだけでなく、入力サイズに対する線形複雑度も達成する。
我々のネットワークは,従来の3Dトランスよりも7.3倍のスピードアップで,一般的な3D認識タスクにおいて高い精度を実現している。
論文 参考訳(メタデータ) (2021-10-30T08:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。