論文の概要: Sliding Window Sum Algorithms for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2305.16513v1
- Date: Thu, 25 May 2023 22:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:58:52.245717
- Title: Sliding Window Sum Algorithms for Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークのためのスライディングウィンドウサムアルゴリズム
- Authors: Roman Snytsar
- Abstract要約: スライディングウィンドウ和は文字列インデックス、ハッシュ、時系列解析に広く使われている。
我々は,ウィンドウサイズ$w$とプロセッサ数Pに対して,O(P/w)の高速化を実現する汎用ベクトル化スライディング和アルゴリズムのファミリを開発した。
我々は、スライディング和畳み込みカーネルが、CPU上で一般的に使われているGEMMカーネルよりも効率的であることを示し、GPUカーネルよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sliding window sums are widely used for string indexing, hashing and time
series analysis. We have developed a family of the generic vectorized sliding
sum algorithms that provide speedup of O(P/w) for window size $w$ and number of
processors P. For a sum with a commutative operator the speedup is improved to
O(P/log(w)). Even more important, our algorithms exhibit efficient memory
access patterns. In this paper we study the application of the sliding sum
algorithms to the training and inference of the Deep Neural Networks. We
demonstrate how both pooling and convolution primitives could be expressed as
sliding sums and evaluated by the compute kernels with the shared structure. We
show that the sliding sum convolution kernels are more efficient than the
commonly used GEMM kernels on the CPU, and could even outperform their GPU
counterparts.
- Abstract(参考訳): スライディングウィンドウ和は文字列インデックス、ハッシュ、時系列分析に広く使われている。
我々は,ウィンドウサイズ $w$ とプロセッサ数 p に対する o(p/w) の高速化を提供する汎用ベクトル化スライディング和アルゴリズムのファミリーを開発した。
さらに重要なのは、アルゴリズムが効率的なメモリアクセスパターンを示すことだ。
本稿では,Deep Neural Networks のトレーニングおよび推論におけるスライディング和アルゴリズムの適用について検討する。
プールと畳み込みプリミティブの両方をスライディング和として表現し,共有構造を持つ計算カーネルによって評価する方法を実証する。
我々は、スライディング和畳み込みカーネルが、CPU上で一般的に使われているGEMMカーネルよりも効率的であることを示し、GPUカーネルよりも優れた性能を示す。
関連論文リスト
- Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。
この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。
これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文 参考訳(メタデータ) (2023-10-08T16:26:18Z) - Provable advantages of kernel-based quantum learners and quantum
preprocessing based on Grover's algorithm [0.0]
サポートベクタマシンのカーネルにおいて,Groverのアルゴリズムを利用した高速化を実現する。
また、前処理ステップにおける量子計算と古典的な分類法を組み合わせることにより、分類性能がさらに向上することを示した。
論文 参考訳(メタデータ) (2023-09-25T18:00:00Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Scalable Plug-and-Play ADMM with Convergence Guarantees [24.957046830965822]
広範に使われている変種を漸進的に提案する。
ADMMアルゴリズムにより、大規模データセットにスケーラブルになる。
理論的には,集合的明示的な仮定の下で収束アルゴリズムを解析する。
論文 参考訳(メタデータ) (2020-06-05T04:10:15Z) - Minimal Filtering Algorithms for Convolutional Neural Networks [82.24592140096622]
我々は,M=3,5,7,9,11の基本的なフィルタリング操作を実装するための完全並列ハードウェア指向アルゴリズムを開発した。
各ケースにおける提案アルゴリズムの完全な並列ハードウェア実装は、組込み乗算器の数を約30%削減する。
論文 参考訳(メタデータ) (2020-04-12T13:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。