論文の概要: Flash3D: Super-scaling Point Transformers through Joint Hardware-Geometry Locality
- arxiv url: http://arxiv.org/abs/2412.16481v1
- Date: Sat, 21 Dec 2024 04:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:42:47.942676
- Title: Flash3D: Super-scaling Point Transformers through Joint Hardware-Geometry Locality
- Title(参考訳): Flash3D: ハードウェアと幾何学の融合によるスーパースケーリングポイント変換器
- Authors: Liyan Chen, Gregory P. Meyer, Zaiwei Zhang, Eric M. Wolff, Paul Vernaza,
- Abstract要約: Flash3D Transformerは、パーフェクト空間ハッシュ(PSH)に基づく原理的局所性機構を通じて、幾何学的局所性とGPUタイリングを整列する
Flash3Dはベンチマークデータセットで最先端のPTv3結果を上回っ、2.25倍の速度向上と2.4倍のメモリ効率向上を実現している。
- 参考スコア(独自算出の注目度): 11.05338651486841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent efforts recognize the power of scale in 3D learning (e.g. PTv3) and attention mechanisms (e.g. FlashAttention). However, current point cloud backbones fail to holistically unify geometric locality, attention mechanisms, and GPU architectures in one view. In this paper, we introduce Flash3D Transformer, which aligns geometric locality and GPU tiling through a principled locality mechanism based on Perfect Spatial Hashing (PSH). The common alignment with GPU tiling naturally fuses our PSH locality mechanism with FlashAttention at negligible extra cost. This mechanism affords flexible design choices throughout the backbone that result in superior downstream task results. Flash3D outperforms state-of-the-art PTv3 results on benchmark datasets, delivering a 2.25x speed increase and 2.4x memory efficiency boost. This efficiency enables scaling to wider attention scopes and larger models without additional overhead. Such scaling allows Flash3D to achieve even higher task accuracies than PTv3 under the same compute budget.
- Abstract(参考訳): 近年の取り組みは、3D学習におけるスケールのパワー(eg PTv3)と注意機構(eg FlashAttention)を認識している。
しかし、現在のクラウドバックボーンは、幾何学的局所性、アテンションメカニズム、GPUアーキテクチャを一目で統一することができない。
本稿では,パーフェクト空間ハッシュ(PSH)に基づく原理的局所性機構により,幾何学的局所性とGPUタイリングを整列するFlash3Dトランスフォーマーを提案する。
GPUタイリングと共通するアライメントは、PSHのローカリティメカニズムを、無視できる余分なコストでFlashAttentionと自然に融合させます。
このメカニズムは、より優れたダウンストリームタスク結果をもたらすバックボーン全体の柔軟な設計選択を可能にする。
Flash3Dはベンチマークデータセットで最先端のPTv3結果を上回っ、2.25倍の速度向上と2.4倍のメモリ効率向上を実現している。
この効率性により、さらなるオーバーヘッドを伴わずに、より広い関心範囲とより大きなモデルへのスケーリングが可能になる。
このようなスケーリングにより、同じ計算予算の下で、Flash3DはPTv3よりも高いタスク精度を達成することができる。
関連論文リスト
- Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-23T17:57:16Z) - STREAMINGGS: Voxel-Based Streaming 3D Gaussian Splatting with Memory Optimization and Architectural Support [16.4682107511283]
3DGSは、リソース制約のあるモバイルデバイスで毎秒90フレームのリアルタイム要求を満たすのに苦労している。
既存のアクセラレータは計算効率に重点を置いているが、メモリ効率を見落としているため、冗長なDRAMトラフィックにつながる。
完全ストリーミング3DGSアルゴリズムアーキテクチャの共同設計であるSTREAMINGGSを導入し,細粒度パイプライニングを実現する。
論文 参考訳(メタデータ) (2025-06-09T07:51:34Z) - LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [68.93333348474988]
メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。
カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。
本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T06:50:57Z) - On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation [52.96632954620623]
本稿では3Dポイント・クラウド・トランス用に設計された新しい幾何対応PEFTモジュールを提案する。
当社のアプローチでは,大規模3Dポイントクラウドモデルの効率的,スケーラブル,かつ幾何を考慮した微調整のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2025-05-28T15:08:36Z) - GauRast: Enhancing GPU Triangle Rasterizers to Accelerate 3D Gaussian Splatting [3.275890592583965]
3D Gaussian Splatting (3DGS)は高品質な3Dレンダリング手法である。
3DGSを加速するためのこれまでの取り組みは、相当な統合オーバーヘッドとハードウェアコストを必要とする専用のアクセラレータに依存していた。
本研究では、3DGSパイプラインと高度に最適化された従来のグラフィックスパイプラインの類似性を活用する加速度戦略を提案する。
論文 参考訳(メタデータ) (2025-03-20T19:54:05Z) - Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity [59.80405282381126]
拡散変換器(DiT)はビデオ生成を支配しているが、その高い計算コストは現実の応用性を著しく制限する。
Sparse VideoGen (SVG) と呼ばれる3次元フルアテンションに固有の空間を利用して推論効率を向上する学習自由フレームワークを提案する。
SVGはCagVideoX-v1.5とHunyuanVideoで最大2.28倍と2.33倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-03T19:29:16Z) - Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives [60.217580865237835]
3D Gaussian Splatting (3D-GS)は、3D Gaussian のパラメトリック点雲としてシーンをモデル化することで、新しいビューをリアルタイムにレンダリングすることのできる最近の3Dシーン再構築技術である。
3D-GSでは,レンダリング速度,モデルサイズ,トレーニング時間の大幅な改善を実現し,2つの重要な非効率性に対処する。
我々のSpeedy-Splatアプローチはこれらのテクニックを組み合わせることで、Mip-NeRF 360、Tamps & Temples、Deep Blendingのデータセットから、平均レンダリング速度を6.71ドル(約6万6000円)で加速します。
論文 参考訳(メタデータ) (2024-11-30T20:25:56Z) - Spec-Gaussian: Anisotropic View-Dependent Appearance for 3D Gaussian Splatting [55.71424195454963]
Spec-Gaussian は球面調和の代わりに異方性球面ガウス場を利用するアプローチである。
実験結果から,本手法はレンダリング品質の面で既存の手法を超越していることが示された。
この改良は、3D GSの適用性を高めて、特異面と異方面の複雑なシナリオを扱う。
論文 参考訳(メタデータ) (2024-02-24T17:22:15Z) - Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-15T18:59:59Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - APPT : Asymmetric Parallel Point Transformer for 3D Point Cloud
Understanding [20.87092793669536]
トランスフォーマーベースのネットワークは、3Dポイントクラウド理解において素晴らしいパフォーマンスを達成した。
これらの問題に対処するために,非対称並列点変換器(APPT)を提案する。
APPTは、ローカル詳細機能に集中しながら、ネットワーク全体を通して機能を取り込むことができる。
論文 参考訳(メタデータ) (2023-03-31T06:11:02Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Focal-PETR: Embracing Foreground for Efficient Multi-Camera 3D Object
Detection [11.13693561702228]
支配的なマルチカメラ3D検出パラダイムは、明示的な3D特徴構造に基づいている。
他の方法では、画像トークンと3Dオブジェクトの関係を構築するために幾何学的位置符号化が暗黙的に導入されている。
本稿では,インスタンス誘導型監視モジュールと空間アライメントモジュールを備えたFocal-PETRを提案する。
論文 参考訳(メタデータ) (2022-12-11T13:38:54Z) - PatchFormer: A Versatile 3D Transformer Based on Patch Attention [0.358439716487063]
我々は、アテンションマップが計算されるより小さなベースセットを適応的に学習するためにパッチアテンションを導入する。
これらの基底に対する重み付けの和により、パッチアテンションはグローバルな形状のコンテキストをキャプチャするだけでなく、入力サイズに対する線形複雑度も達成する。
我々のネットワークは,従来の3Dトランスよりも7.3倍のスピードアップで,一般的な3D認識タスクにおいて高い精度を実現している。
論文 参考訳(メタデータ) (2021-10-30T08:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。