論文の概要: In-SRAM Radiant Foam Rendering on a Graph Processor
- arxiv url: http://arxiv.org/abs/2601.04382v1
- Date: Wed, 07 Jan 2026 20:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.911553
- Title: In-SRAM Radiant Foam Rendering on a Graph Processor
- Title(参考訳): グラフプロセッサ上でのIn-SRAMラジアントフォームレンダリング
- Authors: Zulkhuu Tuya, Ignacio Alzugaray, Nicholas Fry, Andrew J. Davison,
- Abstract要約: 多くのコアアクセラレーターは、単一の大きなデバイスメモリを数百から数千の軽量コアで置き換える。
この組織は、高い集約帯域幅を提供するが、多くの計算技法の背後にある重要な仮定を破り、レイは大きな統一されたシーン表現にランダムにアクセスできる。
タイルローカルなレンダリングと明示的なタイル間通信を備えた多コアアクセラレータである Graphcore Mk2 IPU 上で,emphRadiant Foam Voronoi-cell 表現のために配布された完全なSRAMを提案する。
- 参考スコア(独自算出の注目度): 25.181643235594734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many emerging many-core accelerators replace a single large device memory with hundreds to thousands of lightweight cores, each owning only a small local SRAM and exchanging data via explicit on-chip communication. This organization offers high aggregate bandwidth, but it breaks a key assumption behind many volumetric rendering techniques: that rays can randomly access a large, unified scene representation. Rendering efficiently on such hardware therefore requires distributing both data and computation, keeping ray traversal mostly local, and structuring communication into predictable routes. We present a fully in-SRAM, distributed renderer for the \emph{Radiant Foam} Voronoi-cell volumetric representation on the Graphcore Mk2 IPU, a many-core accelerator with tile-local SRAM and explicit inter-tile communication. Our system shards the scene across tiles and forwards rays between shards through a hierarchical routing overlay, enabling ray marching entirely from on-chip SRAM with predictable communication. On Mip-NeRF~360 scenes, the system attains near-interactive throughput (\(\approx\)1\,fps at \mbox{$640\times480$}) with image and depth quality close to the original GPU-based Radiant Foam implementation, while keeping all scene data and ray state in on-chip SRAM. Beyond demonstrating feasibility, we analyze routing, memory, and scheduling bottlenecks that inform how future distributed-memory accelerators can better support irregular, data-movement-heavy rendering workloads.
- Abstract(参考訳): 多くの新興多コアアクセラレータは、数百から数千の軽量コアで単一の大きなデバイスメモリを置き換え、それぞれが小さなローカルSRAMのみを所有し、明示的なオンチップ通信を通じてデータを交換する。
この組織は、高い集約帯域幅を提供しているが、多くのボリュームレンダリング技術の背後にある重要な仮定を破っている。
このようなハードウェア上で効率的にレンダリングするには、データと計算の両方を分散し、レイトラバーサルをほとんどローカルに保ち、通信を予測可能なルートに構造化する必要がある。
In-SRAM, distributed renderer for the \emph{Radiant Foam} Voronoi-cell volumetric representation on the Graphcore Mk2 IPU, a many-core accelerator with tile-local SRAM and explicit inter-tile communication。
我々のシステムは、タイルにまたがってシーンをシャードし、階層的なルーティングオーバーレイを通してシャード間の光線を転送し、予測可能な通信でオンチップSRAMから完全に光線マーキングを可能にする。
Mip-NeRF~360のシーンでは、システムはほぼインタラクティブなスループット(\(\approx\)1\,fps at \mbox{$640\times480$})を達成する。
実現可能性を示すだけでなく、ルーティング、メモリ、スケジューリングのボトルネックを分析し、将来の分散メモリアクセラレーターが不規則でデータ移動の多いレンダリングワークロードをよりうまくサポートできるかを知らせます。
関連論文リスト
- A LoD of Gaussians: Unified Training and Rendering for Ultra-Large Scale Reconstruction with External Memory [14.128827855029636]
コンシューマグレードのGPU上で,超大規模シーンのトレーニングとレンダリングを行うフレームワークであるA LoD of Gaussiansを紹介した。
ガウス階層と逐次点木を組み合わせたハイブリッドデータ構造は、効率的なビュー依存のLoD選択を可能にする。
軽量キャッシングとビュースケジューリングシステムは、リアルタイムストリーミングとレンダリングをサポートするために時間的コヒーレンスを利用する。
論文 参考訳(メタデータ) (2025-07-01T18:12:43Z) - LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [75.67501939005119]
メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。
カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。
本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T06:50:57Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - 3D Gaussian Ray Tracing: Fast Tracing of Particle Scenes [50.36933474990516]
本研究は, 粒子のトレーシング, 境界体積階層の構築, 高性能なレイトレーシングハードウェアを用いた各画素のレイキャストについて考察する。
半透明粒子の多量処理を効率的に行うために,有界メッシュで粒子をカプセル化するアルゴリズムについて述べる。
実験は、我々のアプローチの速度と精度、およびコンピュータグラフィックスとビジョンにおけるいくつかの応用を実証する。
論文 参考訳(メタデータ) (2024-07-09T17:59:30Z) - Practical offloading for fine-tuning LLM on commodity GPU via learned sparse projectors [11.127604539303373]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。
このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。
本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP-Offload を提案する。
論文 参考訳(メタデータ) (2024-06-14T16:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。