Fugu-MT 論文翻訳(概要): Accelerating Machine Learning Primitives on Commodity Hardware

論文の概要: Accelerating Machine Learning Primitives on Commodity Hardware

arxiv url: http://arxiv.org/abs/2310.05218v1
Date: Sun, 8 Oct 2023 16:26:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 09:10:17.537798
Title: Accelerating Machine Learning Primitives on Commodity Hardware
Title（参考訳）: コモディティハードウェア上での機械学習プリミティブの高速化
Authors: Roman Snytsar
Abstract要約: 本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sliding Window Sum algorithms have been successfully used for training and inference of Deep Neural Networks. We have shown before how both pooling and convolution 1-D primitives could be expressed as sliding sums and evaluated by the compute kernels with a shared structure. In this paper, we present an extensive study of the Sliding Window convolution technique as a more efficient alternative to the commonly used General Matrix Multiplication (GEMM) based convolution in Deep Neural Networks (DNNs). The Sliding Window technique addresses the memory bloating problem and demonstrates a significant speedup in 2-D convolution. We explore the performance of this technique on a range of implementations, including custom kernels for specific filter sizes. Our results suggest that the Sliding Window computation kernels can outperform GEMM-based convolution on a CPU and even on dedicated hardware accelerators. This could promote a wider adoption of AI on low-power and low-memory devices without the need for specialized hardware. We also discuss the compatibility of model compression methods and optimized network architectures with the Sliding Window technique, encouraging further research in these areas.
Abstract（参考訳）: Sliding Window Sumアルゴリズムはディープニューラルネットワークのトレーニングと推論に成功している。プールと畳み込み1-Dプリミティブの両方をスライディング和として表現し、共有構造を持つ計算カーネルによって評価する方法を以前にも示してきた。本稿では,Deep Neural Networks (DNN) における一般行列乗算法 (GEMM) に基づく畳み込みよりも効率的な方法として,スライディングウィンドウ畳み込み技術について広範な研究を行う。スライディングウィンドウ技術はメモリの肥大化問題に対処し、2次元畳み込みの大幅な高速化を示す。我々は、特定のフィルタサイズのカスタムカーネルを含む、様々な実装でこの技術の性能を探求する。この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。また,Sliding Window 技術によるモデル圧縮手法と最適化ネットワークアーキテクチャの互換性についても論じ,これらの分野のさらなる研究を奨励する。

関連論文リスト

Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文参考訳（メタデータ） (2024-09-23T08:27:27Z)
Sliding Window Sum Algorithms for Deep Neural Networks [0.0]
スライディングウィンドウ和は文字列インデックス、ハッシュ、時系列解析に広く使われている。我々は,ウィンドウサイズ$w$とプロセッサ数Pに対して,O(P/w)の高速化を実現する汎用ベクトル化スライディング和アルゴリズムのファミリを開発した。我々は、スライディング和畳み込みカーネルが、CPU上で一般的に使われているGEMMカーネルよりも効率的であることを示し、GPUカーネルよりも優れた性能を示す。
論文参考訳（メタデータ） (2023-05-25T22:37:40Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文参考訳（メタデータ） (2023-03-25T13:53:02Z)
Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文参考訳（メタデータ） (2022-04-21T05:27:09Z)
Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文参考訳（メタデータ） (2021-06-30T03:54:35Z)
SKIing on Simplices: Kernel Interpolation on the Permutohedral Lattice for Scalable Gaussian Processes [39.821400341226315]
構造化カーネル補間(SKI)フレームワークは、グリッド上で効率的な行列ベクトル乗算(MVM)を行うために使用される。我々は,SKIと多面体格子を高次元高速二元フィルタで接続する手法を開発した。密度の大きい矩形格子の代わりにスパースsimplicial gridを用いることで、SKIよりも指数関数的に高速にGP推論を行うことができる。また,MVMに基づく推論の大幅な高速化を可能にするSimplex-GPの実装も提供する。
論文参考訳（メタデータ） (2021-06-12T06:04:56Z)
Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文参考訳（メタデータ） (2021-04-03T09:08:12Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。