論文の概要: Hardware Acceleration of Neural Graphics
- arxiv url: http://arxiv.org/abs/2303.05735v2
- Date: Tue, 14 Mar 2023 10:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 11:30:06.363002
- Title: Hardware Acceleration of Neural Graphics
- Title(参考訳): ニューラルネットワークのハードウェア高速化
- Authors: Muhammad Husnain Mubarik, Ramakrishna Kanungo, Tobias Zirr and Rakesh
Kumar
- Abstract要約: 従来のコンピュータグラフィックスを駆動するレンダリングおよび逆レンダリングアルゴリズムは、最近、ニューラル表現(NR)に取って代わられた。
ニューラルネットワーク(NG)はハードウェアのサポートが必要なのか?
本稿では,専用エンジンによる入力エンコーディングとカーネルを直接高速化する,スケーラブルでフレキシブルなハードウェアアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 4.740006810824922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rendering and inverse-rendering algorithms that drive conventional computer
graphics have recently been superseded by neural representations (NR). NRs have
recently been used to learn the geometric and the material properties of the
scenes and use the information to synthesize photorealistic imagery, thereby
promising a replacement for traditional rendering algorithms with scalable
quality and predictable performance. In this work we ask the question: Does
neural graphics (NG) need hardware support? We studied representative NG
applications showing that, if we want to render 4k res. at 60FPS there is a gap
of 1.5X-55X in the desired performance on current GPUs. For AR/VR applications,
there is an even larger gap of 2-4 OOM between the desired performance and the
required system power. We identify that the input encoding and the MLP kernels
are the performance bottlenecks, consuming 72%,60% and 59% of application time
for multi res. hashgrid, multi res. densegrid and low res. densegrid encodings,
respectively. We propose a NG processing cluster, a scalable and flexible
hardware architecture that directly accelerates the input encoding and MLP
kernels through dedicated engines and supports a wide range of NG applications.
We also accelerate the rest of the kernels by fusing them together in Vulkan,
which leads to 9.94X kernel-level performance improvement compared to un-fused
implementation of the pre-processing and the post-processing kernels. Our
results show that, NGPC gives up to 58X end-to-end application-level
performance improvement, for multi res. hashgrid encoding on average across the
four NG applications, the performance benefits are 12X,20X,33X and 39X for the
scaling factor of 8,16,32 and 64, respectively. Our results show that with
multi res. hashgrid encoding, NGPC enables the rendering of 4k res. at 30FPS
for NeRF and 8k res. at 120FPS for all our other NG applications.
- Abstract(参考訳): 従来のコンピュータグラフィックスを駆動するレンダリングと逆レンダリングアルゴリズムは、最近neural representations (nr)に取って代わられた。
NRは、最近、シーンの幾何学的および物質的特性を学び、その情報を使ってフォトリアリスティックな画像を合成し、スケーラブルで予測可能なパフォーマンスで従来のレンダリングアルゴリズムを置き換えることを約束している。
neural graphics (ng) はハードウェアサポートが必要か?
60FPSで4kの解像度をレンダリングしたい場合、現在のGPUで所望のパフォーマンスで1.5X-55Xの差があることを示す代表NGアプリケーションについて検討した。
AR/VRアプリケーションでは、所望のパフォーマンスと必要なシステムパワーの間に2-4 OOMのギャップがさらに大きい。
入力エンコーディングとmlpカーネルは性能ボトルネックであり,マルチres.hashgrid,multi res. densegrid,low res. densegridエンコーディングのアプリケーション時間の72%,60%,59%を消費する。
我々は,専用エンジンによる入力エンコーディングとmlpカーネルを直接高速化し,幅広いngアプリケーションをサポートするスケーラブルでフレキシブルなハードウェアアーキテクチャであるng処理クラスタを提案する。
Vulkanでは、前処理や後処理のカーネルの未使用実装と比較して、9.94倍のカーネルレベルのパフォーマンス向上を実現しています。
以上の結果から,NGPCは最大58倍のエンド・ツー・エンドの性能向上を実現し,Hashgridエンコーディングは4つのNGアプリケーションで平均12X,20X,33X,39Xのスケーリング係数でそれぞれ8,16,32,64。
以上の結果から,NGPCでは,NeRFで30FPSで4k,他のNGアプリケーションで120FPSで8kのレンダリングが可能であることが示唆された。
関連論文リスト
- HyperReel: High-Fidelity 6-DoF Video with Ray-Conditioned Sampling [60.90470761333465]
提案するHyperReelは,新しい6-DoFビデオ表現である。
The two core components of HyperReel is a ray-conditioned sample prediction network which can possible high-fidelity, high frame rate rendering at high resolution and a compact and memory efficient dynamic volume representation。
論文 参考訳(メタデータ) (2023-01-05T18:59:44Z) - CUF: Continuous Upsampling Filters [25.584630142930123]
本稿では,画像処理における最も重要な操作の一つとして,アップサンプリングについて考察する。
本稿では、アップサンプリングカーネルをニューラルネットワークとしてパラメータ化することを提案する。
このパラメータ化により、競合する任意のスケールの超解像アーキテクチャと比較して40倍のパラメータ数の削減が得られる。
論文 参考訳(メタデータ) (2022-10-13T12:45:51Z) - Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文 参考訳(メタデータ) (2022-03-23T19:14:11Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Myelin: An asynchronous, message-driven parallel framework for
extreme-scale deep learning [1.813006808606333]
Myelinは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、MyelinはGPUメモリ使用量を4倍削減することができる。
論文 参考訳(メタデータ) (2021-10-25T14:43:36Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。
一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。
我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文 参考訳(メタデータ) (2021-04-29T17:50:35Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - At-Scale Sparse Deep Neural Network Inference with Efficient GPU
Implementation [24.824295164938604]
本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。
スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。
本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
論文 参考訳(メタデータ) (2020-07-28T12:09:43Z) - Parallel 3DPIFCM Algorithm for Noisy Brain MRI Images [3.3946853660795884]
本稿では,GPUを用いて並列環境で3DPIFCMと呼ばれる[1]で開発したアルゴリズムについて述べる。
この結果から,並列バージョンはGAIFCMアルゴリズムより最大27倍高速,GAIFCMアルゴリズムより68倍高速であることがわかった。
論文 参考訳(メタデータ) (2020-02-05T20:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。