論文の概要: Bypass Exponential Time Preprocessing: Fast Neural Network Training via
Weight-Data Correlation Preprocessing
- arxiv url: http://arxiv.org/abs/2211.14227v1
- Date: Fri, 25 Nov 2022 16:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 15:54:11.178420
- Title: Bypass Exponential Time Preprocessing: Fast Neural Network Training via
Weight-Data Correlation Preprocessing
- Title(参考訳): Bypass指数時間前処理:重み相関前処理による高速ニューラルネットワークトレーニング
- Authors: Josh Alman, Jiehao Liang, Zhao Song, Ruizhe Zhang, Danyang Zhuo
- Abstract要約: 最先端のディープニューラルネットワークは、モデル精度を高めるために、毎年サイズが大きくなる。
最近の作業(Song, Yang and Zhang, NeurIPS 2021)では、このイテレーション毎の時間を$o(nmd)$に削減していますが、データかニューラルネットワークの重みを前処理するのに指数関数的な時間が必要です。
本稿では,各反復でどのニューロンが発火するかを迅速かつ動的に検出するために,木構造に重みデータ相関を簡易に格納する前処理手法を提案する。
- 参考スコア(独自算出の注目度): 16.35997749365563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the last decade, deep neural networks have transformed our society, and
they are already widely applied in various machine learning applications.
State-of-art deep neural networks are becoming larger in size every year to
deliver increasing model accuracy, and as a result, model training consumes
substantial computing resources and will only consume more in the future. Using
current training methods, in each iteration, to process a data point $x \in
\mathbb{R}^d$ in a layer, we need to spend $\Theta(md)$ time to evaluate all
the $m$ neurons in the layer. This means processing the entire layer takes
$\Theta(nmd)$ time for $n$ data points. Recent work [Song, Yang and Zhang,
NeurIPS 2021] reduces this time per iteration to $o(nmd)$, but requires
exponential time to preprocess either the data or the neural network weights,
making it unlikely to have practical usage.
In this work, we present a new preprocessing method that simply stores the
weight-data correlation in a tree data structure in order to quickly,
dynamically detect which neurons fire at each iteration. Our method requires
only $O(nmd)$ time in preprocessing and still achieves $o(nmd)$ time per
iteration. We complement our new algorithm with a lower bound, proving that
assuming a popular conjecture from complexity theory, one could not
substantially speed up our algorithm for dynamic detection of firing neurons.
- Abstract(参考訳): 過去10年間で、ディープニューラルネットワークは私たちの社会を変え、すでにさまざまな機械学習アプリケーションに広く適用されています。
最先端のディープニューラルネットワークは、モデル精度の向上を実現するために、毎年大きくなってきており、その結果、モデルトレーニングは大量のコンピューティングリソースを消費し、将来的にはより多くのリソースを消費するようになる。
現在のトレーニングメソッドを使って、各イテレーションでデータポイント$x \in \mathbb{R}^d$をレイヤーで処理するには、レイヤ内のすべての$m$ニューロンを評価するために、$\Theta(md)$時間を使う必要があります。
これは、層全体の処理が$n$のデータポイントに対して$\theta(nmd)$の時間を要することを意味する。
最近の作業(Song, Yang and Zhang, NeurIPS 2021)では、このイテレーション毎の時間を$o(nmd)$に削減していますが、データかニューラルネットワークの重みを前処理するのに指数関数的な時間が必要です。
本研究では,各反復でどのニューロンが発火するかを迅速かつ動的に検出するために,ツリーデータ構造に重みデータ相関を簡易に格納する前処理手法を提案する。
我々の方法は前処理で$O(nmd)$時間しか必要とせず、イテレーション毎に$o(nmd)$時間を達成する。
我々は新しいアルゴリズムを低境界で補完し、複雑性理論から一般的な予想を仮定すると、発火ニューロンを動的に検出するアルゴリズムを実質的に高速化することができないことを証明した。
関連論文リスト
- Neural-g: A Deep Learning Framework for Mixing Density Estimation [16.464806944964003]
混合(または先行)密度推定は、機械学習と統計学において重要な問題である。
本稿では,新しいニューラルネットワークを用いたモデリング手法であるNeural-$g$を提案する。
論文 参考訳(メタデータ) (2024-06-10T03:00:28Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Moccasin: Efficient Tensor Rematerialization for Neural Networks [21.348126106786914]
我々はtextscMoccasin という新しい制約プログラミングの定式化を開発し,O(n)$ の整数変数しか持たない。
本稿では,特に大規模グラフにおいて,我々のアプローチが最近の研究よりも桁違いに高速であることを示す数値的研究について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:41:37Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - A Sublinear Adversarial Training Algorithm [13.42699247306472]
本稿では,ReLUの活性化をシフトした2層ニューラルネットワーク上での対向的トレーニング手順の収束保証を解析する。
本研究では,半空間レポートデータ構造を適用して,時間コスト$o(m n d)$の逆トレーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-08-10T15:31:40Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。