論文の概要: Sparse Computations in Deep Learning Inference
- arxiv url: http://arxiv.org/abs/2512.02550v1
- Date: Tue, 02 Dec 2025 09:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.799569
- Title: Sparse Computations in Deep Learning Inference
- Title(参考訳): 深層学習推論におけるスパース計算
- Authors: Ioanna Tasou, Panagiotis Mpakos, Angelos Vlachos, Dionysios Adamopoulos, Georgios Giannakopoulos, Konstantinos Katsikopoulos, Ioannis Karaparisis, Maria Lazou, Spyridon Loukovitis, Areti Mei, Anastasia Poulopoulou, Angeliki Dimitriou, Giorgos Filandrianos, Dimitrios Galanopoulos, Vasileios Karampinis, Ilias Mitsouras, Nikolaos Spanos, Petros Anastasiadis, Ioannis Doudalis, Konstantinos Nikas, George Retsinas, Paraskevi Tzouveli, Christina Giannoula, Nectarios Koziris, Nikela Papadopoulou, Giorgos Stamou, Athanasios Voulodimos, Georgios Goumas,
- Abstract要約: スパーシリティは、推論要求を劇的に減少させる重要なメカニズムである。
ほとんど未使用であり、まだ実運用のAIシステムに完全には組み込まれていない。
本稿では,高度に効率的なスパース深層学習モデルの開発と展開を目指す,パフォーマンスエンジニアのためのリソースとして機能することを目的とする。
- 参考スコア(独自算出の注目度): 14.210576143844435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The computational demands of modern Deep Neural Networks (DNNs) are immense and constantly growing. While training costs usually capture public attention, inference demands are also contributing in significant computational, energy and environmental footprints. Sparsity stands out as a critical mechanism for drastically reducing these resource demands. However, its potential remains largely untapped and is not yet fully incorporated in production AI systems. To bridge this gap, this work provides the necessary knowledge and insights for performance engineers keen to get involved in deep learning inference optimization. In particular, in this work we: a) discuss the various forms of sparsity that can be utilized in DNN inference, b) explain how the original dense computations translate to sparse kernels, c) provide an extensive bibliographic review of the state-of-the-art in the implementation of these kernels for CPUs and GPUs, d) discuss the availability of sparse datasets in support of sparsity-related research and development, e) explore the current software tools and frameworks that provide robust sparsity support, and f) present evaluation results of different implementations of the key SpMM and SDDMM kernels on CPU and GPU platforms. Ultimately, this paper aims to serve as a resource for performance engineers seeking to develop and deploy highly efficient sparse deep learning models in productions.
- Abstract(参考訳): 現代のディープニューラルネットワーク(DNN)の計算要求は膨大で、常に増大している。
トレーニングコストは通常公共の注目を集めるが、推論要求は計算、エネルギー、環境のフットプリントにも寄与している。
スパーシリティは、これらのリソース要求を大幅に削減するための重要なメカニズムである。
しかし、その可能性の大部分は未完成であり、まだ実運用のAIシステムに完全には組み込まれていない。
このギャップを埋めるために、この作業は、ディープラーニングの推論最適化に関わることを望むパフォーマンスエンジニアに必要な知識と洞察を提供する。
特にこの作品では、次のように述べています。
a) DNN推論で使用可能な各種の空白について論じる。
b) 元の密度計算がスパースカーネルにどのように変換されるかを説明すること。
c) CPU と GPU 用のカーネルの実装における最先端技術に関する広範な文献レビューを提供する。
d)スパース研究・開発を支援するためのスパースデータセットの利用可能性について論じる。
e) 堅牢なスパーシティサポートを提供する現在のソフトウェアツールやフレームワークを探求し、
f) CPUおよびGPUプラットフォーム上での鍵SpMMおよびSDDMMカーネルの異なる実装の評価結果を示す。
最終的に本論文は,高効率な疎いディープラーニングモデルを実運用で開発・展開するための,パフォーマンスエンジニアのためのリソースとして機能することを目的としている。
関連論文リスト
- GOGH: Correlation-Guided Orchestration of GPUs in Heterogeneous Clusters [4.241410532880399]
異種クラスタにおける機械学習ワークロードを管理するための学習ベースアーキテクチャを提案する。
システムはオンラインで運用され、エネルギー消費を最小化しながら、入ってくるトレーニングや推論要求にリソースを割り当てる。
論文 参考訳(メタデータ) (2025-10-17T13:44:10Z) - NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFを導入し、非常に大きなニューラルネットワークによって学習された表現と計算の科学的研究を可能にする。
論文 参考訳(メタデータ) (2024-07-18T17:59:01Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - A Survey of Serverless Machine Learning Model Inference [0.0]
ジェネレーティブAI、コンピュータビジョン、自然言語処理は、AIモデルをさまざまな製品に統合するきっかけとなった。
本調査は,大規模ディープラーニングサービスシステムにおける新たな課題と最適化の機会を要約し,分類することを目的としている。
論文 参考訳(メタデータ) (2023-11-22T18:46:05Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Integrating Deep Learning in Domain Sciences at Exascale [2.241545093375334]
我々は,大規模HPCシステム上でディープラーニングモデルとアプリケーションを効率的に動作させるための既存パッケージの評価を行った。
本稿では,現在の大規模異種システムに対する新しい非同期並列化と最適化手法を提案する。
従来の計算集約型アプリケーションとデータ集約型アプリケーションをAIで拡張するための図表と潜在的なソリューションを提案する。
論文 参考訳(メタデータ) (2020-11-23T03:09:58Z) - Spiking Neural Networks Hardware Implementations and Challenges: a
Survey [53.429871539789445]
スパイキングニューラルネットワークは、ニューロンとシナプスの操作原理を模倣する認知アルゴリズムである。
スパイキングニューラルネットワークのハードウェア実装の現状について述べる。
本稿では,これらのイベント駆動アルゴリズムの特性をハードウェアレベルで活用するための戦略について論じる。
論文 参考訳(メタデータ) (2020-05-04T13:24:00Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z) - Resource-Efficient Neural Networks for Embedded Systems [23.532396005466627]
本稿では,機械学習技術の現状について概説する。
私たちは、過去10年で主要な機械学習モデルであるディープニューラルネットワーク(DNN)に基づく、リソース効率の高い推論に焦点を当てています。
我々は、圧縮技術を用いて、よく知られたベンチマークデータセットの実験で議論を裏付ける。
論文 参考訳(メタデータ) (2020-01-07T14:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。