論文の概要: Radiant Foam Rendering on a Graph Processor
- arxiv url: http://arxiv.org/abs/2601.04382v2
- Date: Sun, 11 Jan 2026 16:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 15:02:56.464271
- Title: Radiant Foam Rendering on a Graph Processor
- Title(参考訳): グラフプロセッサ上でのラジアントフォームレンダリング
- Authors: Zulkhuu Tuya, Ignacio Alzugaray, Nicholas Fry, Andrew J. Davison,
- Abstract要約: 多くのコアアクセラレーターは、単一の大きなデバイスメモリを数百から数千の軽量コアで置き換える。
この組織は、高い集約帯域幅を提供しているが、多くの技術の背後にある重要な仮定を破っている。
我々は,Graphcore Mk2 IPU上でのRadiant Foam Voronoiセルボリューム表現のために配布された,完全なレンダリングSRAMを提案する。
我々のシステムは640x480で約1fpsのスループットを実現し、元のGPUベースのRadiant Foam実装に近い画像と深度マップの品質を実現した。
- 参考スコア(独自算出の注目度): 25.181643235594734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many emerging many-core accelerators replace a single large device memory with hundreds to thousands of lightweight cores, each owning only a small local SRAM and exchanging data via explicit on-chip communication. This organization offers high aggregate bandwidth, but it breaks a key assumption behind many volumetric rendering techniques: that rays can randomly access a large, unified scene representation. Rendering efficiently on such hardware therefore requires distributing both data and computation, keeping ray traversal mostly local, and structuring communication into predictable routes. We present a fully in-SRAM, distributed renderer for the Radiant Foam Voronoi-cell volumetric representation on the Graphcore Mk2 IPU(Intelligence Processing Unit), a many-core accelerator with tile-local SRAM and explicit inter-tile communication. Our system shards the scene across tiles and forwards rays between shards through a hierarchical routing overlay, enabling ray marching entirely from on-chip SRAM with predictable communication. On Mip-NeRF~360 scenes, the system attains near-interactive throughput of approximately 1 fps at 640x480 with image and depth map quality close to the original GPU-based Radiant Foam implementation, while keeping all scene data and ray state in on-chip SRAM. Beyond demonstrating feasibility, we analyze routing, memory, and scheduling bottlenecks that inform how future distributed-memory accelerators can better support irregular, data-movement-heavy rendering workloads.
- Abstract(参考訳): 多くの新興多コアアクセラレータは、数百から数千の軽量コアで単一の大きなデバイスメモリを置き換え、それぞれが小さなローカルSRAMのみを所有し、明示的なオンチップ通信を通じてデータを交換する。
この組織は、高い集約帯域幅を提供しているが、多くのボリュームレンダリング技術の背後にある重要な仮定を破っている。
このようなハードウェア上で効率的にレンダリングするには、データと計算の両方を分散し、レイトラバーサルをほとんどローカルに保ち、通信を予測可能なルートに構造化する必要がある。
タイルローカルなSRAMと明示的なタイル間通信を備えた多コアアクセラレータであるGraphcore Mk2 IPU(Intelligence Processing Unit)上で,Radiant Foam Voronoiセルボリューム表現のための完全にSRAMの分散レンダラを提案する。
我々のシステムは、タイルにまたがってシーンをシャードし、階層的なルーティングオーバーレイを通してシャード間の光線を転送し、予測可能な通信でオンチップSRAMから完全に光線マーキングを可能にする。
Mip-NeRF~360のシーンでは、640x480で約1fpsのほぼインタラクティブなスループットを実現し、元のGPUベースのRadiant Foam実装に近い画像と深度マップの品質を実現し、すべてのシーンデータとレイ状態をオンチップSRAMに保持する。
実現可能性の証明以外にも、ルーティング、メモリ、スケジューリングのボトルネックを分析し、将来の分散メモリアクセラレーターが不規則でデータ移動の多いレンダリングワークロードをいかにサポートできるかを知らせます。
関連論文リスト
- Larger than memory image processing [0.7161783472741748]
本報告では、1.4PBの電子顕微鏡ボリュームや150TBのヒト臓器のアトラスなどのペタスケールデータセットのメモリ画像解析について述べる。
ストリーミングがデータを通過するときの構造化分析が重要であることを示す。
3Dボリュームでは、2Dスライス(ディレクトリやマルチページTIFFなど)のスタックと3Dチャンクレイアウト(Zarr/HDF5など)の2つの表現が人気である。
ディスクI/Oを最小限に抑える方法で、スライスベースのストリーミングアーキテクチャをどちらの画像表現の上に構築する方法を示す。
論文 参考訳(メタデータ) (2026-01-26T12:02:41Z) - Bare-Metal Tensor Virtualization: Overcoming the Memory Wall in Edge-AI Inference on ARM64 [0.5729426778193398]
ARM64マイクロアーキテクチャ(Apple Silicon)向けに最適化されたソフトウェアで実装された"仮想コア"アーキテクチャ
DMA(Software-Defined Direct Memory Access)は、100%キャッシュラインの利用をウェイトで保証しますが、ゼロコピーローダは遅延を排除します。
110M秒モデルによる実験結果から,M2ハードウェア上では, >60トークン/秒の安定したスループットが示された。
論文 参考訳(メタデータ) (2026-01-06T15:00:40Z) - CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting [34.933663925174635]
CLMは、3DGSが1つのコンシューマグレードのGPUを使用して大きなシーンをレンダリングできるシステムである。
ガウスアンをCPUメモリにオフロードし、必要であればGPUメモリにロードする。
性能と通信のオーバーヘッドを軽減するため、CLMは新たなオフロード戦略を採用している。
論文 参考訳(メタデータ) (2025-11-07T03:30:28Z) - LightMem: Lightweight and Efficient Memory-Augmented Generation [72.21680105265824]
我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。
人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。
GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
論文 参考訳(メタデータ) (2025-10-21T17:58:17Z) - A LoD of Gaussians: Unified Training and Rendering for Ultra-Large Scale Reconstruction with External Memory [14.128827855029636]
コンシューマグレードのGPU上で,超大規模シーンのトレーニングとレンダリングを行うフレームワークであるA LoD of Gaussiansを紹介した。
ガウス階層と逐次点木を組み合わせたハイブリッドデータ構造は、効率的なビュー依存のLoD選択を可能にする。
軽量キャッシングとビュースケジューリングシステムは、リアルタイムストリーミングとレンダリングをサポートするために時間的コヒーレンスを利用する。
論文 参考訳(メタデータ) (2025-07-01T18:12:43Z) - LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [75.67501939005119]
メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。
カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。
本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T06:50:57Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - 3D Gaussian Ray Tracing: Fast Tracing of Particle Scenes [50.36933474990516]
本研究は, 粒子のトレーシング, 境界体積階層の構築, 高性能なレイトレーシングハードウェアを用いた各画素のレイキャストについて考察する。
半透明粒子の多量処理を効率的に行うために,有界メッシュで粒子をカプセル化するアルゴリズムについて述べる。
実験は、我々のアプローチの速度と精度、およびコンピュータグラフィックスとビジョンにおけるいくつかの応用を実証する。
論文 参考訳(メタデータ) (2024-07-09T17:59:30Z) - Practical offloading for fine-tuning LLM on commodity GPU via learned sparse projectors [11.127604539303373]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。
このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。
本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP-Offload を提案する。
論文 参考訳(メタデータ) (2024-06-14T16:59:11Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。