論文の概要: DISTWAR: Fast Differentiable Rendering on Raster-based Rendering
Pipelines
- arxiv url: http://arxiv.org/abs/2401.05345v1
- Date: Fri, 1 Dec 2023 19:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:10:17.205173
- Title: DISTWAR: Fast Differentiable Rendering on Raster-based Rendering
Pipelines
- Title(参考訳): DISTWAR: Rasterベースのレンダリングパイプライン上での高速な微分可能なレンダリング
- Authors: Sankeerth Durvasula, Adrian Zhao, Fan Chen, Ruofan Liang, Pawan Kumar
Sanjaya, Nandita Vijaykumar
- Abstract要約: 微分レンダリングは、3Dシーンを勾配降下を用いた2D画像から訓練されたモデルとして表現する技術である。
本稿では,2つの鍵となるアイデアに基づいて,原子の操作を高速化するソフトウェアアプローチを提案する。
我々は平均2.44倍(最大5.7倍)の大幅なスピードアップを示す。
- 参考スコア(独自算出の注目度): 5.516302928916428
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Differentiable rendering is a technique used in an important emerging class
of visual computing applications that involves representing a 3D scene as a
model that is trained from 2D images using gradient descent. Recent works (e.g.
3D Gaussian Splatting) use a rasterization pipeline to enable rendering high
quality photo-realistic imagery at high speeds from these learned 3D models.
These methods have been demonstrated to be very promising, providing
state-of-art quality for many important tasks. However, training a model to
represent a scene is still a time-consuming task even when using powerful GPUs.
In this work, we observe that the gradient computation phase during training is
a significant bottleneck on GPUs due to the large number of atomic operations
that need to be processed. These atomic operations overwhelm atomic units in
the L2 partitions causing stalls. To address this challenge, we leverage the
observations that during the gradient computation: (1) for most warps, all
threads atomically update the same memory locations; and (2) warps generate
varying amounts of atomic traffic (since some threads may be inactive). We
propose DISTWAR, a software-approach to accelerate atomic operations based on
two key ideas: First, we enable warp-level reduction of threads at the SM
sub-cores using registers to leverage the locality in intra-warp atomic
updates. Second, we distribute the atomic computation between the warp-level
reduction at the SM and the L2 atomic units to increase the throughput of
atomic computation. Warps with many threads performing atomic updates to the
same memory locations are scheduled at the SM, and the rest using L2 atomic
units. We implement DISTWAR using existing warp-level primitives. We evaluate
DISTWAR on widely used raster-based differentiable rendering workloads. We
demonstrate significant speedups of 2.44x on average (up to 5.7x).
- Abstract(参考訳): 微分レンダリングは、3Dシーンを勾配勾配を用いた2D画像からトレーニングしたモデルとして表現する、重要な視覚コンピューティングアプリケーションで使用されるテクニックである。
最近の研究(例えば3dガウスのスプラッティング)では、ラスタライズパイプラインを使用して、これらの学習した3dモデルから高速で高品質なフォトリアリスティックな画像をレンダリングする。
これらの手法は非常に有望であることが証明され、多くの重要なタスクに最先端の品質を提供する。
しかし、強力なgpuを使用しても、シーンを表現するためにモデルをトレーニングすることは依然として時間がかかります。
そこで本研究では,処理が必要な大量のアトミック操作のために,トレーニング中の勾配計算フェーズがGPUの重大なボトルネックとなることを観察する。
これらの原子操作はl2パーティションの原子ユニットを圧倒し、ストールを引き起こす。
この課題に対処するために、勾配計算の間、(1)すべてのスレッドが同じメモリ位置をアトミックに更新する、(2)ワープは様々な量の原子トラフィックを生成する(一部のスレッドは不活性である可能性がある)、という観測結果を活用する。
まず、レジスタを用いてsmサブコアにおけるワープレベルのスレッドの削減を可能にし、ワープ内アトミック更新の局所性を活用する。
第2に、SMにおけるワープレベル低減とL2原子単位間の原子計算を分散し、原子計算のスループットを向上する。
多くのスレッドが同じメモリ位置へのアトミックな更新を行うワープはSMでスケジュールされ、残りはL2原子単位を使用する。
我々は既存のワープレベルのプリミティブを使ってDISTWARを実装している。
我々は、広く使われているラスタベースの差別化可能なレンダリングワークロード上でDISTWARを評価する。
平均速度は2.44倍(最大5.7倍)である。
関連論文リスト
- ThunderKittens: Simple, Fast, and Adorable AI Kernels [43.32681787348603]
We present ThunderKittens (TK), a framework for write performanceant AI kernels while rest to use and maintain。
我々は、さまざまなAI操作に対して、以前のカーネルと一致するか、より優れているカーネルを提供することで、TKの価値を示す。
論文 参考訳(メタデータ) (2024-10-27T10:07:16Z) - Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields [13.729716867839509]
ハイパフォーマンスを維持しつつガウスの数を著しく削減する学習可能なマスク戦略を提案する。
さらに、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。
我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文 参考訳(メタデータ) (2024-08-07T14:56:34Z) - PFGS: High Fidelity Point Cloud Rendering via Feature Splatting [5.866747029417274]
スパースポイントから高品質な画像をレンダリングする新しいフレームワークを提案する。
この手法はまず3次元ガウス格子と点雲のレンダリングを橋渡しする。
異なるベンチマーク実験により、レンダリング品質と主成分の必要性の観点から、我々の手法の優位性を示す。
論文 参考訳(メタデータ) (2024-07-04T11:42:54Z) - LP-3DGS: Learning to Prune 3D Gaussian Splatting [71.97762528812187]
本稿では,トレーニング可能な2値マスクを重要度に応用し,最適プルーニング比を自動的に検出する3DGSを提案する。
実験の結果,LP-3DGSは効率と高品質の両面において良好なバランスを保っていることがわかった。
論文 参考訳(メタデータ) (2024-05-29T05:58:34Z) - Lightplane: Highly-Scalable Components for Neural 3D Fields [54.59244949629677]
Lightplane RenderとSplatterは2D-3Dマッピングにおけるメモリ使用量を大幅に削減した。
これらのイノベーションは、メモリと計算コストの少ない、はるかに高解像度で高解像度の画像の処理を可能にする。
論文 参考訳(メタデータ) (2024-04-30T17:59:51Z) - GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering [112.16239342037714]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。
周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文 参考訳(メタデータ) (2024-02-15T17:32:50Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。